論文の概要: Beyond State Consistency: Behavior Consistency in Text-Based World Models
- arxiv url: http://arxiv.org/abs/2604.13824v1
- Date: Wed, 15 Apr 2026 12:56:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.54343
- Title: Beyond State Consistency: Behavior Consistency in Text-Based World Models
- Title(参考訳): 状態整合性を超えて:テキストベースの世界モデルにおける振舞い整合性
- Authors: Youling Huang, Guanqiao Chen, Junchi Yao, Lu Wang, Fangkai Yang, Chao Du, ChenZhuo Zhao, Pu Zhao, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang,
- Abstract要約: 本研究では,世界モデルと実環境の機能的整合性を改善することを目的とした,行動整合性トレーニングパラダイムを提案する。
WebShopとTextWorldの実験では、BehRベースのトレーニングによって、いくつかの設定における長期的なアライメントが改善されている。
- 参考スコア(独自算出の注目度): 58.216587360435305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models have been emerging as critical components for assessing the consequences of actions generated by interactive agents in online planning and offline evaluation. In text-based environments, world models are typically evaluated and trained with single-step metrics such as Exact Match, aiming to improve the similarity between predicted and real-world states, but such metrics have been shown to be insufficient for capturing actual agent behavior. To address this issue, we introduce a new behavior-aligned training paradigm aimed at improving the functional consistency between the world model and the real environment. This paradigm focuses on optimizing a tractable step-level metric named Behavior Consistency Reward (BehR), which measures how much the likelihood of a logged next action changes between the real state and the world-model-predicted state under a frozen Reference Agent. Experiments on WebShop and TextWorld show that BehR-based training improves long-term alignment in several settings, with the clearest gains in WebShop and less movement in near-ceiling regimes, while preserving or improving single-step prediction quality in three of four settings. World models trained with BehR also achieve lower false positives in offline surrogate evaluation and show modest but encouraging gains in inference-time lookahead planning.
- Abstract(参考訳): 世界モデルは、オンライン計画やオフライン評価においてインタラクティブエージェントが生み出す行動の結果を評価する重要な要素として現れてきた。
テキストベースの環境では、予測された状態と実世界の状態の類似性を改善することを目的として、Exact Matchのような単一ステップのメトリクスで世界モデルを評価、訓練するが、実際のエージェントの振る舞いを捉えるには不十分であることが示されている。
この問題に対処するために,世界モデルと実環境間の機能的整合性を改善することを目的とした,行動整合性トレーニングパラダイムを導入する。
このパラダイムは、凍った参照エージェントの下で、実際の状態と世界モデル予測状態の間で、ログされた次のアクションがどの程度変化するかを測定する、BehR(BehR)と呼ばれる、抽出可能なステップレベルのメトリクスを最適化することに焦点を当てている。
WebShopとTextWorldの実験によると、BehRベースのトレーニングは、WebShopの最も明確な増加と、近サイクルのレシエーションにおける移動の減少により、いくつかの設定における長期的アライメントを改善し、一方、4つの設定のうち3つのステップの予測品質を保留または改善している。
BehRでトレーニングされた世界モデルは、オフラインサロゲート評価において低い偽陽性を達成し、控えめに見せるが、推論時のルックアヘッド計画の利得を奨励する。
関連論文リスト
- World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry [82.93104394404781]
汎用世界モデルは、スケーラブルなポリシー評価、最適化、計画を約束します。
本稿では,世界モデルによる予測誤りと自己改善を識別するフレームワークであるWorld Action Verifier(WAV)を提案する。
論文 参考訳(メタデータ) (2026-04-02T12:48:36Z) - Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - Test-Time Mixture of World Models for Embodied Agents in Dynamic Environments [29.514831254621438]
Test-time Mixture of World Models (TMoW) は、目に見えない領域や進化しない領域への適応性を高めるフレームワークである。
TMoWは、関数が固定されている従来のMoEとは異なり、テスト時に世界モデル上でルーティング機能を更新する。
我々は、VirtualHome、ALFWorld、RLBenchベンチマーク上でTMoWを評価し、ゼロショット適応と少数ショット拡張シナリオの両方で強い性能を示す。
論文 参考訳(メタデータ) (2026-01-30T07:06:40Z) - Agent2World: Learning to Generate Symbolic World Models via Adaptive Multi-Agent Feedback [51.22403664895878]
Agent2Worldは、強力な推論時ワールドモデル生成を実現するツール拡張マルチエージェントフレームワークである。
また、マルチエージェントフィードバックの生成を基盤にすることで、教師付き微調整のためのデータエンジンとしても機能する。
論文 参考訳(メタデータ) (2025-12-26T18:54:14Z) - Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。
Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-12-25T06:31:11Z) - nuPlan-R: A Closed-Loop Planning Benchmark for Autonomous Driving via Reactive Multi-Agent Simulation [2.585002881750625]
我々は、新しいリアクティブクローズドループ計画ベンチマークであるnuPlan-Rを提案する。
本ベンチマークでは,ルールベースのIMMエージェントをノイズ分離型拡散型反応性エージェントに置き換える。
ベンチマークを2つの追加メトリクスで拡張し、計画性能をより包括的な評価を可能にします。
論文 参考訳(メタデータ) (2025-11-13T15:23:30Z) - Adapting World Models with Latent-State Dynamics Residuals [10.892848566977369]
ReDRAWは、シミュレーションで事前訓練され、ターゲット環境に調整された潜在状態自己回帰世界モデルである。
これにより、RLエージェントを、修正された動的条件の下で想像上のロールアウトで最適化し、現実世界にデプロイすることが可能になる。
論文 参考訳(メタデータ) (2025-04-03T03:41:30Z) - STAT: Towards Generalizable Temporal Action Localization [56.634561073746056]
WTAL(Wakly-supervised temporal action Localization)は、ビデオレベルのラベルだけでアクションインスタンスを認識およびローカライズすることを目的としている。
既存の手法は、異なる分布に転送する際の重大な性能劣化に悩まされる。
本稿では,アクションローカライズ手法の一般化性向上に焦点を当てたGTALを提案する。
論文 参考訳(メタデータ) (2024-04-20T07:56:21Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。