論文の概要: FutureWorld: A Live Reinforcement Learning Environment for Predictive Agents with Real-World Outcome Rewards
- arxiv url: http://arxiv.org/abs/2604.26733v2
- Date: Thu, 07 May 2026 14:24:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.266809
- Title: FutureWorld: A Live Reinforcement Learning Environment for Predictive Agents with Real-World Outcome Rewards
- Title(参考訳): FutureWorld: 実世界の成果を反映した予測エージェントのためのライブ強化学習環境
- Authors: Zhixin Han, Yanzhi Zhang, Chuyang Wei, Maohang Gao, Xiawei Yue, Kefei Chen, Yu Zhuang, Haoxiang Guan, Jiyan He, Jian Li, Yitong Duan, Yu Shi, Mengting Hu, Shuxin Zheng,
- Abstract要約: 本稿では,予測,結果実現,パラメータ更新の間のトレーニングループを閉鎖するエージェント強化学習環境であるFutureWorldを紹介する。
3つのオープンソースエージェント、連続したFutureWorldトレーニングラウンドは、予測精度、確率的スコアリング、キャリブレーションを一貫して改善する。
- 参考スコア(独自算出の注目度): 20.541743597851177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Live future prediction refers to the task of making predictions about real-world events before they unfold. This task is increasingly studied using large language model-based agent systems, and it is important for building agents that can continually learn from the real world. It can provide a large number of prediction questions grounded in diverse real-world events, while preventing answer leakage. To leverage the advantages of future prediction, we present FutureWorld, a live agentic reinforcement learning environment that closes the training loop between prediction, outcome realization, and parameter updates. Specifically, we modify and extend verl-tool, resulting in a new framework that we call verl-tool-future. Unlike standard RL training frameworks that rely on immediate rewards, verl-tool-future stores prediction-time rollouts, backfills rewards after real-world outcomes become available, and then replays the completed trajectories for policy update. Across three open-source agents, successive FutureWorld training rounds lead to consistent improvements in prediction accuracy, probabilistic scoring, and calibration, demonstrating that delayed real-world outcome feedback can serve as an effective RL signal for predictive agents.
- Abstract(参考訳): ライブ・フューチャー・予測(Live Future Prediction)とは、現実の事象が展開する前に予測を行うタスクである。
このタスクは、大規模言語モデルに基づくエージェントシステムを用いて、ますます研究され、現実世界から継続的に学習できるエージェントを構築することが重要である。
さまざまな現実世界のイベントに根ざした、大量の予測質問を提供すると同時に、回答のリークを防ぐことができる。
将来予測の利点を活用するために,予測,結果実現,パラメータ更新の間のトレーニングループを閉じたエージェント強化学習環境であるFutureWorldを提案する。
具体的には、verl-toolを変更して拡張し、verl-tool-futureと呼ばれる新しいフレームワークを作成します。
即時報酬に依存する通常のRLトレーニングフレームワークとは異なり、verl-tool-futureは予測時ロールアウトを格納し、現実世界の結果が利用可能になった後に報酬をバックフィルし、ポリシー更新のために完了した軌道を再生する。
3つのオープンソースエージェント、連続したFutureWorldトレーニングラウンドにより、予測精度、確率的スコアリング、キャリブレーションが一貫した改善をもたらし、遅延現実の成果フィードバックが予測エージェントの効果的なRL信号として機能することを示した。
関連論文リスト
- LatentPilot: Scene-Aware Vision-and-Language Navigation by Dreaming Ahead with Latent Visual Reasoning [51.969318585152116]
LatentPilotは、トレーニング中の将来の観察を貴重なデータソースとして利用して、アクション条件付きビジュアルダイナミクスを学習する。
そこで本稿では,フライホイール方式のトレーニング機構を提案する。これは,道路上の軌道を反復的に収集し,エージェントの行動分布に適合するようにモデルを再訓練する。
R2R-CE、RxR-CE、R2R-PEベンチマークの実験では新たなSOTA結果が得られた。
論文 参考訳(メタデータ) (2026-03-31T02:21:59Z) - Predictive World Models from Real-World Partial Observations [66.80340484148931]
本研究では,現実の道路環境に対する確率論的予測世界モデル学習のためのフレームワークを提案する。
従来の手法では、学習のための基礎的真理として完全状態を必要とするが、HVAEが部分的に観察された状態のみから完全状態を予測することを学べる新しい逐次訓練法を提案する。
論文 参考訳(メタデータ) (2023-01-12T02:07:26Z) - Palm up: Playing in the Latent Manifold for Unsupervised Pretraining [31.92145741769497]
本稿では,多種多様なデータセットを使用しながら探索行動を示すアルゴリズムを提案する。
私たちのキーとなるアイデアは、静的データセットに事前トレーニングされた深層生成モデルを活用し、潜在空間に動的モデルを導入することです。
次に、教師なし強化学習アルゴリズムを用いて、この環境を探索し、収集したデータに基づいて教師なし表現学習を行う。
論文 参考訳(メタデータ) (2022-10-19T22:26:12Z) - What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文 参考訳(メタデータ) (2022-06-13T21:31:06Z) - A-ACT: Action Anticipation through Cycle Transformations [89.83027919085289]
未来を予測できる人間の能力が、機械学習アルゴリズムにどのように移行できるかを分析するために、一歩後退します。
人間の心理学に関する最近の研究は、発生を予測して、人間の脳が両方のシステムにカウントされていることを説明している。
本研究では,行動予測作業における各システムの影響について検討し,学習フレームワークに統合するためのパラダイムを導入する。
論文 参考訳(メタデータ) (2022-04-02T21:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。