論文の概要: Foundation World Models for Agents that Learn, Verify, and Adapt Reliably Beyond Static Environments
- arxiv url: http://arxiv.org/abs/2602.23997v1
- Date: Fri, 27 Feb 2026 13:20:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.434019
- Title: Foundation World Models for Agents that Learn, Verify, and Adapt Reliably Beyond Static Environments
- Title(参考訳): 静的環境を超えた信頼性を学習し、検証し、適応するエージェントのための基礎的世界モデル
- Authors: Florent Delgrange,
- Abstract要約: 次世代の自律エージェントは、効率的に学習するだけでなく、確実に行動し、オープンな世界で行動に適応する必要がある。
本稿では, 強化学習, 反応性/合成合成, 抽象メカニズムを統一する, 永続的, 構成的表現という, 基礎世界モデルに対するビジョンを概説する。
i) 明確な目的を持った最適化を支援するために仕様から学習可能な報酬モデル、(ii) 学習を通しての適応的な形式的検証、(iii) モデルの予測の信頼性を定量化するためのオンライン抽象化キャリブレーション、(iv) 検証者によって導かれるテスト時合成と世界モデル生成の4つの要素を中心に構築されたアジェンダを提案する。
- 参考スコア(独自算出の注目度): 3.282750994783201
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The next generation of autonomous agents must not only learn efficiently but also act reliably and adapt their behavior in open worlds. Standard approaches typically assume fixed tasks and environments with little or no novelty, which limits world models' ability to support agents that must evolve their policies as conditions change. This paper outlines a vision for foundation world models: persistent, compositional representations that unify reinforcement learning, reactive/program synthesis, and abstraction mechanisms. We propose an agenda built around four components: (i) learnable reward models from specifications to support optimization with clear objectives; (ii) adaptive formal verification integrated throughout learning; (iii) online abstraction calibration to quantify the reliability of the model's predictions; and (iv) test-time synthesis and world-model generation guided by verifiers. Together, these components enable agents to synthesize verifiable programs, derive new policies from a small number of interactions, and maintain correctness while adapting to novelty. The resulting framework positions foundation world models as a substrate for learning, reasoning, and adaptation, laying the groundwork for agents that not only act well but can explain and justify the behavior they adopt.
- Abstract(参考訳): 次世代の自律エージェントは、効率的に学習するだけでなく、確実に行動し、オープンな世界でその行動に適応する必要がある。
標準的なアプローチでは、ほとんど、あるいは全く新規性のない固定されたタスクや環境を前提としており、条件が変わるにつれてポリシーを進化させなければならないエージェントをサポートする世界モデルの能力を制限している。
本稿では, 強化学習, 反応性/合成合成, 抽象メカニズムを統一する, 永続的, 構成的表現という, 基礎世界モデルに対するビジョンを概説する。
4つのコンポーネントを中心に構築されたアジェンダを提案する。
一 明確な目的をもって最適化を支援するための仕様から学習可能な報酬モデル
(ii) 学習を通して統合された適応的形式的検証
三 モデルの予測の信頼性を定量化するためのオンライン抽象校正
(4)検証者によるテストタイム合成とワールドモデル生成。
これらの構成要素によって、エージェントは検証可能なプログラムを合成し、少数の相互作用から新しいポリシーを導き、新規性に適応しながら正確性を維持することができる。
その結果生まれたフレームワークは、基礎世界モデルを学習、推論、適応の基盤として位置づけ、うまく機能するだけでなく、彼らが採用する振る舞いを説明、正当化できるエージェントの基礎を築いた。
関連論文リスト
- From Word to World: Can Large Language Models be Implicit Text-based World Models? [82.47317196099907]
エージェント強化学習は、経験駆動のスケーリングにますます依存している。
世界モデルは、シミュレートされた経験を通して学習効率を改善する潜在的方法を提供する。
大規模言語モデルがこの役割を確実に果たせるか,どのような条件でエージェントに有意義な利益をもたらすかを検討する。
論文 参考訳(メタデータ) (2025-12-21T17:28:42Z) - EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning [63.03672166010434]
我々は、進化的、タスクに依存しない、戦略を導いた、実行可能検証可能なデータ合成フレームワークを紹介します。
問題、多様な候補解、検証成果物を共同で合成する。
これは、人間による注釈付きチェックと戦略によるチェックの合意を強制する一貫性に基づく評価器を通じて戦略を反復的に発見する。
論文 参考訳(メタデータ) (2025-10-20T11:56:35Z) - One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration [77.8436947454471]
シンボリック・ワールド・モデリングは、実行可能プログラムとして環境の遷移力学を推論し、表現する必要がある。
OneLifeは、条件付きアクティベートされたプログラム法則を通じて世界ダイナミクスをモデル化するフレームワークである。
OneLifeは、最小限の、ガイドなしのインタラクションから、キー環境のダイナミクスをうまく学べる。
論文 参考訳(メタデータ) (2025-10-14T02:49:32Z) - World Models for Cognitive Agents: Transforming Edge Intelligence in Future Networks [55.90051810762702]
本稿では,世界モデルを概観し,そのアーキテクチャ,トレーニングパラダイム,予測,生成,計画,因果推論といった応用を概観する。
ワイヤレスエッジインテリジェンス最適化に適した,新しい世界モデルに基づく強化学習フレームワークであるWireless Dreamerを提案する。
論文 参考訳(メタデータ) (2025-05-31T06:43:00Z) - AI in a vat: Fundamental limits of efficient world modelling for agent sandboxing and interpretability [84.52205243353761]
最近の研究は、世界モデルを使用して、AIエージェントをデプロイ前にテストできる制御された仮想環境を生成することを提案する。
評価対象のAIエージェントに非依存な世界モデルを簡単にする方法を検討する。
論文 参考訳(メタデータ) (2025-04-06T20:35:44Z) - Can foundation models actively gather information in interactive environments to test hypotheses? [43.42688356541211]
基礎モデルはシングルターン推論において優れているが、動的環境におけるマルチターン探索に苦慮している。
これらのモデルを,経験から学び,適応し,情報を収集する能力に基づいて評価した。
論文 参考訳(メタデータ) (2024-12-09T12:27:21Z) - Adaptive World Models: Learning Behaviors by Latent Imagination Under Non-Stationarity [16.15952351162363]
私たちは新しいフォーマリズム、Hiddenを紹介します。
POMDP - 適応的な世界モデルで制御するために設計された。
提案手法は, 様々な非定常RLベンチマークにおけるロバストな動作の学習を可能にすることを実証する。
論文 参考訳(メタデータ) (2024-11-02T19:09:56Z) - Demonstrating the Continual Learning Capabilities and Practical Application of Discrete-Time Active Inference [0.0]
アクティブ推論は、エージェントが環境とどのように相互作用するかを理解するための数学的フレームワークである。
本稿では,個別の時間環境で動作するエージェントのための連続学習フレームワークを提案する。
我々は、エージェントがモデルを再学習し、効率的に洗練する能力を示し、金融や医療といった複雑な分野に適合する。
論文 参考訳(メタデータ) (2024-09-30T21:18:46Z) - Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文 参考訳(メタデータ) (2021-10-27T04:27:28Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。