論文の概要: World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry
- arxiv url: http://arxiv.org/abs/2604.01985v1
- Date: Thu, 02 Apr 2026 12:48:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.789655
- Title: World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry
- Title(参考訳): World Action Verifier:フォワード逆非対称性による自己改善世界モデル
- Authors: Yuejiang Liu, Fan Feng, Lingjing Kong, Weifeng Lu, Jinzhou Tang, Kun Zhang, Kevin Murphy, Chelsea Finn, Yilun Du,
- Abstract要約: 汎用世界モデルは、スケーラブルなポリシー評価、最適化、計画を約束します。
本稿では,世界モデルによる予測誤りと自己改善を識別するフレームワークであるWorld Action Verifier(WAV)を提案する。
- 参考スコア(独自算出の注目度): 82.93104394404781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General-purpose world models promise scalable policy evaluation, optimization, and planning, yet achieving the required level of robustness remains challenging. Unlike policy learning, which primarily focuses on optimal actions, a world model must be reliable over a much broader range of suboptimal actions, which are often insufficiently covered by action-labeled interaction data. To address this challenge, we propose World Action Verifier (WAV), a framework that enables world models to identify their own prediction errors and self-improve. The key idea is to decompose action-conditioned state prediction into two factors -- state plausibility and action reachability -- and verify each separately. We show that these verification problems can be substantially easier than predicting future states due to two underlying asymmetries: the broader availability of action-free data and the lower dimensionality of action-relevant features. Leveraging these asymmetries, we augment a world model with (i) a diverse subgoal generator obtained from video corpora and (ii) a sparse inverse model that infers actions from a subset of state features. By enforcing cycle consistency among generated subgoals, inferred actions, and forward rollouts, WAV provides an effective verification mechanism in under-explored regimes, where existing methods typically fail. Across nine tasks spanning MiniGrid, RoboMimic, and ManiSkill, our method achieves 2x higher sample efficiency while improving downstream policy performance by 18%.
- Abstract(参考訳): 汎用世界モデルは、スケーラブルなポリシー評価、最適化、計画を約束するが、要求されるロバストネスのレベルを達成することは依然として困難である。
主に最適な行動に焦点を当てた政策学習とは異なり、世界モデルは、アクションラベルの相互作用データによってカバーされることがしばしばである、より広い範囲の準最適行動に対して信頼されなければならない。
この課題に対処するために、世界モデルが自身の予測エラーと自己改善を識別できるフレームワークであるWorld Action Verifier (WAV)を提案する。
主要なアイデアは、アクション条件付き状態予測を、状態の妥当性とアクション到達性という2つの要因に分解し、それぞれを個別に検証することである。
これらの検証問題は、アクションフリーデータのより広範な可用性と、アクション関連特徴の低次元性という2つの前提条件により、将来の状態を予測するよりもはるかに容易であることを示す。
これらの非対称性を活用することで、私たちは世界モデルを強化します。
一 ビデオコーパス及びビデオコーパスから得られる多様なサブゴナルジェネレータ
(ii)状態特徴のサブセットからアクションを推論するスパース逆モデル。
生成されたサブゴール間のサイクル一貫性、推論されたアクション、前方ロールアウトを強制することにより、WAVは、既存の方法が通常失敗する未探索のレシエーションにおいて効果的な検証メカニズムを提供する。
提案手法は,MiniGrid,RoboMimic,ManiSkillにまたがる9つのタスクに対して,下流政策性能を18%向上させ,サンプル効率を2倍に向上させる。
関連論文リスト
- Action Draft and Verify: A Self-Verifying Framework for Vision-Language-Action Model [31.013109374489442]
VLA(Vision-Language-Action)モデルは、最近、具体化されたタスク間で強力なパフォーマンスを示した。
本稿では,拡散行動専門家が複数の候補アクションチャンクをドラフトし,VLMが各候補を1つの前方パスに1つの難易度基準でスコア付けして1つを選択することを提案する。
マッチしたバックボーン、トレーニングデータ、アクション・チャンク長では、ADVは拡散ベースのベースラインよりも実世界の+4.3ポイント、+19.7ポイントで成功率を向上させる。
論文 参考訳(メタデータ) (2026-03-18T09:16:20Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - World-in-World: World Models in a Closed-Loop World [123.85805788728128]
我々は,実エージェントと環境の相互作用を反映したクローズドループの世界において,世界モデルをベンチマークする最初のオープンプラットフォームであるWorld-in-Worldを紹介した。
多様なWMを厳格に評価し、タスク成功を主要な指標として優先順位付けし、視覚的品質に重点を置く4つのクローズドループ環境をキュレートする。
1)視覚的品質だけではタスクの成功は保証されないが、制御可能性の方が重要であること、2) 行動観測データによる後トレーニングのスケーリングは、事前訓練されたビデオジェネレータをアップグレードするよりも効果的であること、3) 推論時計算の割り当てにより、WMsは大幅にクローズドな改善が可能であること、の3つのサプライズを明らかにした。
論文 参考訳(メタデータ) (2025-10-20T22:09:15Z) - WorldPrediction: A Benchmark for High-level World Modeling and Long-horizon Procedural Planning [52.36434784963598]
我々は、異なるAIモデルのワールドモデリングと手続き計画能力を評価するためのビデオベースのベンチマークであるWorldPredictionを紹介する。
現在のフロンティアモデルでは,WorldPrediction-WMでは57%,WorldPrediction-PPでは38%の精度しか達成できないが,人間は両タスクを完璧に解くことができる。
論文 参考訳(メタデータ) (2025-06-04T18:22:40Z) - GLANCE: Global Actions in a Nutshell for Counterfactual Explainability [10.25011737760687]
2つのアルゴリズムからなる多目的かつ適応的なフレームワークであるGLANCEを紹介する。
C-GLANCEは、特徴空間と反現実的アクションの空間の両方を考慮するクラスタリングアプローチを採用している。
T-GLANCEは柔軟性を高めるための追加機能を提供する。
論文 参考訳(メタデータ) (2024-05-29T09:24:25Z) - Zero-shot Safety Prediction for Autonomous Robots with Foundation World Models [0.12499537119440243]
世界モデルは、コントローラを訓練し、システムの内部のダイナミックモデルを学ぶことによって安全違反を予測するために代理世界を作成する。
本稿では,観察を意味的かつ因果的に潜伏した表現に組み込む基礎世界モデルを提案する。
これにより、Surrogate dynamicsは、トレーニング不要な大規模言語モデルを活用することで、因果先状態を直接予測できる。
論文 参考訳(メタデータ) (2024-03-30T20:03:49Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。