論文の概要: Feedback World Model Enables Precise Guidance of Diffusion Policy
- arxiv url: http://arxiv.org/abs/2605.15705v1
- Date: Fri, 15 May 2026 07:52:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 17:44:16.308805
- Title: Feedback World Model Enables Precise Guidance of Diffusion Policy
- Title(参考訳): フィードバック・ワールド・モデルは拡散政策の精密ガイダンスを可能にする
- Authors: Tuo An, Jindou Jia, Gen Li, Jingliang Li, Chuhao Zhou, Pengfei Liu, Bofan Lyu, Jiaqi Bai, Xinying Guo, Geng Li, Jianfei Yang,
- Abstract要約: 本稿では,推定時刻における予測と観測のループを閉じる新たなパラダイムであるフィードバック・ワールド・モデルを提案する。
本手法は,分布シフト時の予測精度とポリシー性能を大幅に向上することを示す。
特に、世界モデルの予測誤差を最大76.4%削減し、アウト・オブ・ディストリビューション(OOD)の成功率を30%改善する。
- 参考スコア(独自算出の注目度): 36.965417653906535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models aim to improve robotic decision making by predicting the consequences of actions. However, in practice, their predictions often become unreliable once the robot encounters states outside the training distribution, limiting their effectiveness at deployment. We observe that execution itself provides a natural but underutilized signal: after each action, the robot directly observes the true next state, revealing the mismatch between predicted and actual outcomes. Building on this insight, we propose feedback world model, a new paradigm that closes the loop between prediction and observation at inference time. Instead of treating the world model as a static open-loop predictor, our method maintains a lightweight feedback state that is updated online to iteratively correct future predictions, compensating for model errors using real-time observations without additional training data or parameter updates. We show that this process can be interpreted as a latent-space observer and admits convergence guarantees under mild conditions. We further introduce action-aware guidance to better translate corrected predictions into control by emphasizing action-controllable components while suppressing irrelevant variations. Experiments on LIBERO-Plus, Robomimic, and real-world manipulation tasks demonstrate that our method substantially improves both prediction accuracy and policy performance under distribution shift. In particular, it reduces world model prediction error by up to 76.4% and improves out-of-distribution (OOD) success rate by 30%. These results show that incorporating real-time feedback at inference time provides a simple yet powerful alternative to static world modeling.
- Abstract(参考訳): 世界モデルは、行動の結果を予測することによって、ロボットによる意思決定を改善することを目的としている。
しかし、実際には、ロボットがトレーニング分布外の状態に遭遇すると、その予測は信頼できないものになり、デプロイ時の効率が制限される。
我々は,実行自体が自然だが未使用の信号を提供することを観察する。各動作の後にロボットは次の状態を直接観察し,予測結果と実際の結果とのミスマッチを明らかにする。
この知見に基づいて,予測と推定時の観測のループを閉じる新たなパラダイムであるフィードバックワールドモデルを提案する。
提案手法では,世界モデルを静的なオープンループ予測器として扱う代わりに,オンライン上で更新される軽量なフィードバック状態を維持し,予測を反復的に修正し,学習データやパラメータの更新を伴わずにリアルタイム観測を用いてモデルエラーを補正する。
このプロセスは潜在空間オブザーバとして解釈でき、穏やかな条件下での収束保証を認めることを示す。
さらに、動作制御可能なコンポーネントを強調しながら、無関係な変動を抑えながら、修正された予測をよりよく制御に翻訳するアクション対応ガイダンスを導入する。
LIBERO-Plus, Robomimic, 実世界の操作タスクに対する実験により, 本手法は分布シフト時の予測精度とポリシー性能の両方を大幅に改善することを示した。
特に、世界モデルの予測誤差を最大76.4%削減し、アウト・オブ・ディストリビューション(OOD)の成功率を30%改善する。
これらの結果から,実時間フィードバックを推論時に組み込むことは,静的世界モデリングの簡易かつ強力な代替手段となることが示唆された。
関連論文リスト
- HarmoWAM: Harmonizing Generalizable and Precise Manipulation via Adaptive World Action Models [58.191567345416836]
世界行動モデル(WAM)は、物理力学のモデリングによるロボット制御のための有望なパラダイムとして登場した。
HarmoWAMは、予測と反応の制御を統一するために世界モデルを完全に活用し、一般的なトランジットと正確な操作を可能にする。
実世界の6つのロボットタスクにまたがる3つのトレーニング未確認テスト環境を構築し、背景、位置、オブジェクトの意味のバリエーションをカバーした。
論文 参考訳(メタデータ) (2026-05-11T17:59:56Z) - Learning Lifted Action Models from Unsupervised Visual Traces [38.479081137300945]
本研究では,状態予測,行動予測,持ち上げ行動モデルなどを共同で学習するディープラーニングフレームワークを提案する。
また,予測崩壊や自己強化エラーを防止するために,MILP(mixed-integer linear program)を導入する。
複数の領域にわたる実験により、MILPベースの補正を統合することで、モデルが局所最適から逃れ、一貫した解へと収束することを示す。
論文 参考訳(メタデータ) (2026-04-21T03:49:04Z) - World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry [82.93104394404781]
汎用世界モデルは、スケーラブルなポリシー評価、最適化、計画を約束します。
本稿では,世界モデルによる予測誤りと自己改善を識別するフレームワークであるWorld Action Verifier(WAV)を提案する。
論文 参考訳(メタデータ) (2026-04-02T12:48:36Z) - The Stability of Online Algorithms in Performative Prediction [32.283056647528845]
性能設定に展開された任意の非回帰アルゴリズムが(混合された)性能安定平衡に収束することを示す。
私たちの研究は、勾配降下のような一般的なアルゴリズムが自然に安定化し、暴走するフィードバックループを防いでいる理由を明らかにしています。
論文 参考訳(メタデータ) (2026-02-27T17:35:03Z) - Say, Dream, and Act: Learning Video World Models for Instruction-Driven Robot Manipulation [31.881404705268356]
本稿では,高速かつ予測可能な映像調和行動のためのフレームワークを提案する。
提案手法はまず,信頼性の高い将来予測を保証するために,ロバストなビデオ生成モデルを選択し,適応する。
本手法は,時間的コヒーレントで空間的精度の高い映像予測を行い,正確な操作を直接支援する。
論文 参考訳(メタデータ) (2026-02-11T10:23:52Z) - Reimagination with Test-time Observation Interventions: Distractor-Robust World Model Predictions for Visual Model Predictive Control [51.14656121641822]
世界モデルは、現在の観測と計画された行動によって、ロボットが将来の観察を「想像」することができる。
新たな視覚的障害は、行動結果の予測を破損させ、ロボットが計画や行動検証のために世界モデルの想像力に依存するとき、下流の障害を引き起こす可能性がある。
本稿では、世界モデルによるより信頼性の高い行動結果の予測を可能にする簡易かつ効果的なテストタイム戦略であるReOI(Reimagination with Observation Intervention)を提案する。
論文 参考訳(メタデータ) (2025-06-19T19:41:29Z) - Learning Through Retrospection: Improving Trajectory Prediction for Automated Driving with Error Feedback [41.94295877935867]
自動走行では、周囲の車両の軌道予測がシーンダイナミクスの推論をサポートし、エゴ車両の安全な計画を可能にする。
既存のモデルは、観測された情報に基づいて将来の軌跡を予測するための瞬間的なタスクとして予測を扱う。
提案手法は,推論中の誤差を補正し,再現する手法である。
論文 参考訳(メタデータ) (2025-04-18T16:35:12Z) - ExtremeCast: Boosting Extreme Value Prediction for Global Weather Forecast [57.6987191099507]
非対称な最適化を行い、極端な天気予報を得るために極端な値を強調する新しい損失関数であるExlossを導入する。
また,複数のランダムサンプルを用いて予測結果の不確かさをキャプチャするExBoosterについても紹介する。
提案手法は,上位中距離予測モデルに匹敵する全体的な予測精度を維持しつつ,極端気象予測における最先端性能を達成することができる。
論文 参考訳(メタデータ) (2024-02-02T10:34:13Z) - Towards Motion Forecasting with Real-World Perception Inputs: Are
End-to-End Approaches Competitive? [93.10694819127608]
実世界の知覚入力を用いた予測手法の統一評価パイプラインを提案する。
我々の詳細な調査では、キュレートされたデータから知覚ベースのデータへ移行する際の大きなパフォーマンスギャップが明らかになりました。
論文 参考訳(メタデータ) (2023-06-15T17:03:14Z) - Learning Prediction Intervals for Model Performance [1.433758865948252]
モデル性能の予測間隔を計算する手法を提案する。
我々は,幅広いドリフト条件におけるアプローチを評価し,競合ベースラインよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2020-12-15T21:32:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。