論文の概要: FutureWorld: A Live Environment for Training Predictive Agents with Real-World Outcome Rewards
- arxiv url: http://arxiv.org/abs/2604.26733v1
- Date: Wed, 29 Apr 2026 14:34:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.442649
- Title: FutureWorld: A Live Environment for Training Predictive Agents with Real-World Outcome Rewards
- Title(参考訳): FutureWorld: リアルなアウトカムリワードのある予測エージェントをトレーニングするためのライブ環境
- Authors: Zhixin Han, Yanzhi Zhang, Chuyang Wei, Maohang Gao, Xiawei Yue, Kefei Chen, Yu Zhuang, Haoxiang Guan, Jiyan He, Jian Li, Yitong Duan, Yu Shi, Mengting Hu, Shuxin Zheng,
- Abstract要約: ライブ・フューチャー・予測(Live Future Prediction)とは、現実の事象が展開する前に予測を行うタスクである。
本稿では,予測,結果実現,パラメータ更新の間のトレーニングループを閉鎖するエージェント強化学習環境であるFutureWorldを紹介する。
- 参考スコア(独自算出の注目度): 20.541743597851177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Live future prediction refers to the task of making predictions about real-world events before they unfold. This task is increasingly studied using large language model-based agent systems, and it is important for building agents that can continually learn from real-world. Just as interactive environments have often driven progress in agents, advancing live future prediction naturally motivates viewing it as a learning environment. Prior works have explored future prediction from several different parts, but have generally not framed it as a unified learning environment. This task is appealing for learning because it can provide a large number of prediction questions grounded in diverse real-world events, while preventing answer leakage. To leverage the advantages of live future prediction, we present FutureWorld, a live agentic reinforcement learning environment that closes the training loop between prediction, outcome realization, and parameters update. In our environment, we take three open-source base models and train them for consecutive days. The results show that training is effective. Furthermore, we build a daily benchmark based on the environment and evaluate several frontier agents on it to establish performance baselines for current agent systems.
- Abstract(参考訳): ライブ・フューチャー・予測(Live Future Prediction)とは、現実の事象が展開する前に予測を行うタスクである。
このタスクは、大規模言語モデルに基づくエージェントシステムを用いて、ますます研究され、現実世界から継続的に学習できるエージェントを構築することが重要である。
対話的な環境がエージェントの進歩を後押しするのと同じように、ライブ未来予測が自然に学習環境と見なす動機となる。
以前の研究は、いくつかの異なる部分から将来の予測を探求してきたが、一般的には、それを統一的な学習環境とみなすことはなかった。
このタスクは、さまざまな現実世界のイベントに根ざした多くの予測質問を提供すると同時に、回答の漏洩を防止できるため、学習にアピールする。
将来予測の利点を活用するために,予測,結果実現,パラメータ更新の間のトレーニングループを閉鎖するエージェント強化学習環境であるFutureWorldを提案する。
私たちの環境では、3つのオープンソースベースモデルを連続してトレーニングします。
その結果,トレーニングが効果的であることが示唆された。
さらに、環境に基づく日次ベンチマークを構築し、その上で複数のフロンティアエージェントを評価し、現在のエージェントシステムのパフォーマンスベースラインを確立する。
関連論文リスト
- LatentPilot: Scene-Aware Vision-and-Language Navigation by Dreaming Ahead with Latent Visual Reasoning [51.969318585152116]
LatentPilotは、トレーニング中の将来の観察を貴重なデータソースとして利用して、アクション条件付きビジュアルダイナミクスを学習する。
そこで本稿では,フライホイール方式のトレーニング機構を提案する。これは,道路上の軌道を反復的に収集し,エージェントの行動分布に適合するようにモデルを再訓練する。
R2R-CE、RxR-CE、R2R-PEベンチマークの実験では新たなSOTA結果が得られた。
論文 参考訳(メタデータ) (2026-03-31T02:21:59Z) - Predictive World Models from Real-World Partial Observations [66.80340484148931]
本研究では,現実の道路環境に対する確率論的予測世界モデル学習のためのフレームワークを提案する。
従来の手法では、学習のための基礎的真理として完全状態を必要とするが、HVAEが部分的に観察された状態のみから完全状態を予測することを学べる新しい逐次訓練法を提案する。
論文 参考訳(メタデータ) (2023-01-12T02:07:26Z) - Palm up: Playing in the Latent Manifold for Unsupervised Pretraining [31.92145741769497]
本稿では,多種多様なデータセットを使用しながら探索行動を示すアルゴリズムを提案する。
私たちのキーとなるアイデアは、静的データセットに事前トレーニングされた深層生成モデルを活用し、潜在空間に動的モデルを導入することです。
次に、教師なし強化学習アルゴリズムを用いて、この環境を探索し、収集したデータに基づいて教師なし表現学習を行う。
論文 参考訳(メタデータ) (2022-10-19T22:26:12Z) - What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文 参考訳(メタデータ) (2022-06-13T21:31:06Z) - A-ACT: Action Anticipation through Cycle Transformations [89.83027919085289]
未来を予測できる人間の能力が、機械学習アルゴリズムにどのように移行できるかを分析するために、一歩後退します。
人間の心理学に関する最近の研究は、発生を予測して、人間の脳が両方のシステムにカウントされていることを説明している。
本研究では,行動予測作業における各システムの影響について検討し,学習フレームワークに統合するためのパラダイムを導入する。
論文 参考訳(メタデータ) (2022-04-02T21:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。