Fugu-MT 論文翻訳(概要): Reimagination with Test-time Observation Interventions: Distractor-Robust World Model Predictions for Visual Model Predictive Control

論文の概要: Reimagination with Test-time Observation Interventions: Distractor-Robust World Model Predictions for Visual Model Predictive Control

arxiv url: http://arxiv.org/abs/2506.16565v1
Date: Thu, 19 Jun 2025 19:41:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-23 19:00:05.236447
Title: Reimagination with Test-time Observation Interventions: Distractor-Robust World Model Predictions for Visual Model Predictive Control
Title（参考訳）: テスト時間観測による再想像:視覚モデル予測制御のためのディトラクタ・ロバスト世界モデル予測
Authors: Yuxin Chen, Jianglan Wei, Chenfeng Xu, Boyi Li, Masayoshi Tomizuka, Andrea Bajcsy, Ran Tian,
Abstract要約: 世界モデルは、現在の観測と計画された行動によって、ロボットが将来の観察を「想像」することができる。新たな視覚的障害は、行動結果の予測を破損させ、ロボットが計画や行動検証のために世界モデルの想像力に依存するとき、下流の障害を引き起こす可能性がある。本稿では、世界モデルによるより信頼性の高い行動結果の予測を可能にする簡易かつ効果的なテストタイム戦略であるReOI(Reimagination with Observation Intervention)を提案する。
参考スコア（独自算出の注目度）: 51.14656121641822
License: http://creativecommons.org/licenses/by/4.0/
Abstract: World models enable robots to "imagine" future observations given current observations and planned actions, and have been increasingly adopted as generalized dynamics models to facilitate robot learning. Despite their promise, these models remain brittle when encountering novel visual distractors such as objects and background elements rarely seen during training. Specifically, novel distractors can corrupt action outcome predictions, causing downstream failures when robots rely on the world model imaginations for planning or action verification. In this work, we propose Reimagination with Observation Intervention (ReOI), a simple yet effective test-time strategy that enables world models to predict more reliable action outcomes in open-world scenarios where novel and unanticipated visual distractors are inevitable. Given the current robot observation, ReOI first detects visual distractors by identifying which elements of the scene degrade in physically implausible ways during world model prediction. Then, it modifies the current observation to remove these distractors and bring the observation closer to the training distribution. Finally, ReOI "reimagines" future outcomes with the modified observation and reintroduces the distractors post-hoc to preserve visual consistency for downstream planning and verification. We validate our approach on a suite of robotic manipulation tasks in the context of action verification, where the verifier needs to select desired action plans based on predictions from a world model. Our results show that ReOI is robust to both in-distribution and out-of-distribution visual distractors. Notably, it improves task success rates by up to 3x in the presence of novel distractors, significantly outperforming action verification that relies on world model predictions without imagination interventions.
Abstract（参考訳）: 世界モデルは、現在の観察と計画された行動から、ロボットが将来の観察を「想像」することを可能にし、ロボット学習を促進するための一般化されたダイナミクスモデルとして、ますます採用されている。約束にもかかわらず、これらのモデルはトレーニング中にほとんど見られないオブジェクトや背景要素のような新しい視覚的邪魔に遭遇しても不安定なままである。具体的には、新しいイントラクタはアクション結果予測を破損させ、ロボットが計画や行動検証のために世界モデルのイマジネーションに依存するとき、下流の障害を引き起こす可能性がある。本研究では,新しい視覚的障害が避けられないオープンワールドシナリオにおいて,世界モデルによるより信頼性の高い行動結果の予測を可能にする,シンプルかつ効果的なテストタイム戦略であるReimagination with Observation Intervention(ReOI)を提案する。現在のロボットの観察から、ReOIはまず、世界モデル予測中に、どのシーンの要素が物理的に不可解な方法で劣化しているかを特定することで、視覚的邪魔を検知する。そして、現在の観察を修正して、これらの散逸を除去し、その観察をトレーニング分布に近づける。最後に、ReOIは、修正された観察によって将来の成果を「再考」し、下流の計画と検証のための視覚的一貫性を維持するために、イントラクタをポストホックに再導入する。動作検証の文脈におけるロボット操作タスクのスイートに対する我々のアプローチを検証する。世界モデルからの予測に基づいて,検証者は所望の動作計画を選択する必要がある。以上の結果から,ReOIは分布内および分布外の両方に頑健であることが明らかとなった。特に、新規な邪魔者の存在下でのタスク成功率を最大3倍に向上させ、想像力の介入なしに世界モデル予測に依存するアクション検証を著しく上回っている。

関連論文リスト

DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [56.3802428957899]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。 DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文参考訳（メタデータ） (2025-07-06T16:14:29Z)
Zero-shot Safety Prediction for Autonomous Robots with Foundation World Models [0.12499537119440243]
世界モデルは、コントローラを訓練し、システムの内部のダイナミックモデルを学ぶことによって安全違反を予測するために代理世界を作成する。本稿では,観察を意味的かつ因果的に潜伏した表現に組み込む基礎世界モデルを提案する。これにより、Surrogate dynamicsは、トレーニング不要な大規模言語モデルを活用することで、因果先状態を直接予測できる。
論文参考訳（メタデータ） (2024-03-30T20:03:49Z)
Self-Supervised Bird's Eye View Motion Prediction with Cross-Modality Signals [38.20643428486824]
密集した鳥の視線(BEV)の動きを自己監督的に学習することは、ロボット工学と自律運転の新たな研究である。現在の自己監督法は主に点雲間の点対応に依存する。マルチモダリティデータを活用することで,これらの問題に効果的に対処する,新たなクロスモダリティ自己教師型トレーニングフレームワークを導入する。
論文参考訳（メタデータ） (2024-01-21T14:09:49Z)
JRDB-Traj: A Dataset and Benchmark for Trajectory Forecasting in Crowds [79.00975648564483]
ロボット工学、自動運転車、ナビゲーションなどの分野で使用される軌道予測モデルは、現実のシナリオにおいて課題に直面している。このデータセットは、ロボットの観点から、すべてのエージェント、シーンイメージ、ポイントクラウドの位置を含む包括的なデータを提供する。本研究の目的は,ロボットに対するエージェントの将来の位置を,生の感覚入力データを用いて予測することである。
論文参考訳（メタデータ） (2023-11-05T18:59:31Z)
Implicit Occupancy Flow Fields for Perception and Prediction in Self-Driving [68.95178518732965]
自動運転車(SDV)は、周囲を認識でき、他の交通参加者の将来の行動を予測できなければならない。既存の作業は、検出されたオブジェクトの軌跡が続くオブジェクト検出を実行するか、シーン全体の密度の高い占有とフローグリッドを予測するかのいずれかである。これは、認識と将来の予測に対する統一されたアプローチを動機付け、単一のニューラルネットワークで時間とともに占有とフローを暗黙的に表現します。
論文参考訳（メタデータ） (2023-08-02T23:39:24Z)
Unifying Top-down and Bottom-up Scanpath Prediction Using Transformers [40.27531644565077]
本研究では,注意制御の両形態を予測する単一モデルであるヒューマン・アテンション・トランスフォーマー(HAT)を提案する。 HATは、有効性、一般性、解釈可能性を強調する、計算的注意の新たな標準を定めている。
論文参考訳（メタデータ） (2023-03-16T15:13:09Z)
Predictive Experience Replay for Continual Visual Control and Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文参考訳（メタデータ） (2023-03-12T05:08:03Z)
How many Observations are Enough? Knowledge Distillation for Trajectory Forecasting [31.57539055861249]
現在の最先端モデルは、通常、過去の追跡された場所の「歴史」に頼り、将来の位置の妥当なシーケンスを予測する。我々は,教師ネットワークから学生ネットワークへの知識伝達を可能にする新しい蒸留戦略を考案した。適切に定義された教師の監督により、学生ネットワークが最先端のアプローチと相容れないように実行できることが示される。
論文参考訳（メタデータ） (2022-03-09T15:05:39Z)
TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文参考訳（メタデータ） (2021-04-08T20:01:00Z)
Perceive, Predict, and Plan: Safe Motion Planning Through Interpretable Semantic Representations [81.05412704590707]
本稿では,自動運転車の協調認識,予測,動作計画を行うエンド・ツー・エンドの学習可能なネットワークを提案する。私たちのネットワークは、人間のデモからエンドツーエンドに学習されます。
論文参考訳（メタデータ） (2020-08-13T14:40:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。