論文の概要: Reward Prediction with Factorized World States
- arxiv url: http://arxiv.org/abs/2603.09400v1
- Date: Tue, 10 Mar 2026 09:12:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.196699
- Title: Reward Prediction with Factorized World States
- Title(参考訳): 要因付き世界国家によるリワード予測
- Authors: Yijun Shen, Delong Chen, Xianming Hu, Jiaming Mi, Hongbo Zhao, Kai Zhang, Pascale Fung,
- Abstract要約: 報酬モデルの教師付き学習は、トレーニングデータ固有のバイアスを導入し、新しい目標と環境への一般化を制限する。
本稿では,非構造的観測を言語モデルを用いた階層的オブジェクト属性構造に変換する因子化表現法であるStateFactoryを紹介する。
全体として、StateFactoryによって誘導されるコンパクトな表現構造は、強力な報酬一般化機能を実現する。
- 参考スコア(独自算出の注目度): 26.23676250908859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agents must infer action outcomes and select actions that maximize a reward signal indicating how close the goal is to being reached. Supervised learning of reward models could introduce biases inherent to training data, limiting generalization to novel goals and environments. In this paper, we investigate whether well-defined world state representations alone can enable accurate reward prediction across domains. To address this, we introduce StateFactory, a factorized representation method that transforms unstructured observations into a hierarchical object-attribute structure using language models. This structured representation allows rewards to be estimated naturally as the semantic similarity between the current state and the goal state under hierarchical constraint. Overall, the compact representation structure induced by StateFactory enables strong reward generalization capabilities. We evaluate on RewardPrediction, a new benchmark dataset spanning five diverse domains and comprising 2,454 unique action-observation trajectories with step-wise ground-truth rewards. Our method shows promising zero-shot results against both VLWM-critic and LLM-as-a-Judge reward models, achieving 60% and 8% lower EPIC distance, respectively. Furthermore, this superior reward quality successfully translates into improved agent planning performance, yielding success rate gains of +21.64% on AlfWorld and +12.40% on ScienceWorld over reactive system-1 policies and enhancing system-2 agent planning. Project Page: https://statefactory.github.io
- Abstract(参考訳): エージェントはアクションの結果を推測し、ゴールがどれだけ近いかを示す報酬シグナルを最大化するアクションを選択する必要がある。
報酬モデルの教師付き学習は、トレーニングデータ固有のバイアスを導入し、新しい目標と環境への一般化を制限する。
本稿では、適切に定義された世界状態表現だけで、ドメイン間で正確な報酬予測が可能かどうかを検討する。
そこで本稿では,非構造的観測を言語モデルを用いた階層的オブジェクト属性構造に変換する因子化表現法であるStateFactoryを紹介する。
この構造化された表現は、現在の状態と目的状態の階層的制約の下での意味的類似性として、報酬を自然に推定することができる。
全体として、StateFactoryによって誘導されるコンパクトな表現構造は、強力な報酬一般化機能を実現する。
RewardPredictionは5つの異なる領域にまたがる新しいベンチマークデータセットで、2,454個のアクション・オブザーバ・トラジェクトリとステップワイズ・グラウンド・トゥルース・リワードから構成される。
提案手法は, VLWM-critic と LLM-as-a-Judge の2つの報奨モデルに対して, EPIC 距離を60%, 8%低くした。
さらに、この優れた報酬品質は、エージェント計画性能の改善に成功し、AlfWorldで+21.64%、ScienceWorldで+12.40%、リアクティブシステム-1ポリシーで+12.40%、およびシステム-2エージェント計画の強化に成功している。
Project Page: https://statefactory.github.io
関連論文リスト
- Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models [42.89413870143421]
VLA(Vision-Language-Action)モデルはロボット操作に優れるが、専門家によるデモンストレーションに大きく依存している。
グループベースの最適化手法を含む現在のVLA-RL法は、深刻な報酬の分散によって損なわれている。
本稿では,新しいVLA-RLフレームワークである自己参照ポリシー最適化(SRPO)を提案する。
論文 参考訳(メタデータ) (2025-11-19T16:52:23Z) - VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents [130.70999337445468]
言語モデル(LLM)エージェントと比較して、視覚言語モデル(VLM)エージェントを訓練する際の重要な課題は、テキスト状態から複雑な視覚観察に移行することである。
VLMエージェントは、明示的な視覚状態推論によって内部世界モデルを構築することができるか?
我々は、強化学習(RL)を通して、エージェントの推論プロセスを建築的に実施し、報奨する。
エージェントの状態推定と遷移モデリングへの推論が成功に不可欠であることが分かりました。
論文 参考訳(メタデータ) (2025-10-19T16:05:07Z) - What Fundamental Structure in Reward Functions Enables Efficient Sparse-Reward Learning? [6.908972852063454]
Policy-Aware Matrix Completion (PAMC)は構造的報酬学習フレームワークに向けた最初の具体的なステップである。
その結果,PAMCは構造報酬が存在する場合の実用的で原則化されたツールであり,より広い構造報酬学習の観点からの具体的な第1のインスタンス化であることがわかった。
論文 参考訳(メタデータ) (2025-09-04T00:53:02Z) - VARP: Reinforcement Learning from Vision-Language Model Feedback with Agent Regularized Preferences [13.337649128532307]
嗜好に基づくRLは、比較フィードバックから報酬を学ぶことによって、これらの落とし穴のいくつかを緩和する。
単一の最終状態の画像は、一般的にエージェントの完全な動きを捉えるのに失敗する。
本稿では,フィードバックの精度を向上し,報酬学習とエージェントのポリシーの整合性を向上する2部構成のソリューションを提案する。
論文 参考訳(メタデータ) (2025-03-18T01:51:27Z) - Uncovering Untapped Potential in Sample-Efficient World Model Agents [51.65485693709418]
Simulusは高度にモジュール化されたTBWMエージェントで、マルチモーダルトークン化フレームワーク、本質的なモチベーション、優先順位付けされたWMリプレイ、レグレッション・アズ・クラス化を統合している。
Simulusは3つの異なるベンチマークで、計画自由なWMに対して最先端のサンプル効率を達成する。
論文 参考訳(メタデータ) (2025-02-17T08:06:10Z) - PcLast: Discovering Plannable Continuous Latent States [24.78767380808056]
我々は、効率的な計画と目標条件付き政策学習のために、到達可能な状態を関連付ける表現を学習する。
提案手法は各種シミュレーションテストベッドで厳密に検証されている。
論文 参考訳(メタデータ) (2023-11-06T21:16:37Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。