Fugu-MT 論文翻訳(概要): When to Trust Imagination: Adaptive Action Execution for World Action Models

論文の概要: When to Trust Imagination: Adaptive Action Execution for World Action Models

arxiv url: http://arxiv.org/abs/2605.06222v1
Date: Thu, 07 May 2026 13:18:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-08 22:27:11.82931
Title: When to Trust Imagination: Adaptive Action Execution for World Action Models
Title（参考訳）: イマジネーションを信頼する時--世界行動モデルに対する適応的行動実行
Authors: Rui Wang, Yue Zhang, Jiehong Lin, Kuncheng Luo, Jianan Wang, Zhongrui Wang, Xiaojuan Qi,
Abstract要約: 世界行動モデル(WAM)は、近ごろ、将来の視覚的観察と将来の行動を共同で予測することによって、ロボット操作のための有望なパラダイムとして登場した。現在のWAMは、各モデル推論の後、一定の数の予測アクションを実行し、ロボットは、想像された未来が実際の物理的なロールアウトと一致しているかどうかを無視する。我々は,将来性検証問題として適応型WAM実行を定式化し,WAM予測された未来が信頼性を保ちながらロボットはより長く実行すべきであり,現実が想像力から逸脱した場合にはより早く再計画する。
参考スコア（独自算出の注目度）: 42.51856318901667
License: http://creativecommons.org/licenses/by/4.0/
Abstract: World Action Models (WAMs) have recently emerged as a promising paradigm for robotic manipulation by jointly predicting future visual observations and future actions. However, current WAMs typically execute a fixed number of predicted actions after each model inference, leaving the robot blind to whether the imagined future remains consistent with the actual physical rollout. In this work, we formulate adaptive WAM execution as a future-reality verification problem: the robot should execute longer when the WAM-predicted future remains reliable, and replan earlier when reality deviates from imagination. To this end, we propose Future Forward Dynamics Causal Attention (FFDC), a lightweight verifier that jointly reasons over predicted future actions, predicted visual dynamics, real observations, and language instructions to estimate whether the remaining action rollout can still be trusted. FFDC enables adaptive action chunk sizes as an emergent consequence of prediction-observation consistency, preserving the efficiency of long-horizon execution while restoring responsiveness in contact-rich or difficult phases. We further introduce Mixture-of-Horizon Training to improve long-horizon trajectory coverage for adaptive execution. Experiments on the RoboTwin benchmark and in the real world demonstrate that our method achieves a strong robustness-efficiency trade-off: on RoboTwin, it reduces WAM forward passes by 69.10% and execution time by 34.02%, while improving success rate by 2.54% over the short-chunk baseline; in real-world experiments, it improves success rate by 35%.
Abstract（参考訳）: 世界行動モデル(WAM)は、近ごろ、将来の視覚的観察と将来の行動を共同で予測することによって、ロボット操作のための有望なパラダイムとして登場した。しかし、現在のWAMは通常、各モデル推論後に一定の数の予測アクションを実行し、ロボットは想像された未来が実際の物理的なロールアウトと一致しているかどうかを無視する。本研究は,将来性検証問題として適応型WAM実行を定式化し,WAM予測された未来が信頼性を保ちながらロボットはより長く実行すべきであり,現実が想像力から逸脱した場合には早期に再計画する。そこで本研究では,将来の行動予測,視覚力学予測,実観測,言語指導を共同で行う軽量検証器であるFuture Forward Dynamics Causal Attention (FFDC)を提案する。 FFDCは、適応的なアクションチャンクサイズを、予測と観測の整合性の急激な結果として実現し、コンタクトリッチまたは難易相の応答性を回復しながら、長距離実行の効率を保ちます。さらに、適応実行のための長距離軌道カバレッジを改善するために、Mixture-of-Horizon Trainingを導入する。 RoboTwinベンチマークと実世界での実験では、我々の手法は強い堅牢性と効率のトレードオフを達成している。RoboTwinでは、WAMの前方通過を69.10%削減し、実行時間を34.02%削減し、短絡ベースラインよりも2.54%向上し、実際の実験では成功率を35%向上する。

関連論文リスト

LatentPilot: Scene-Aware Vision-and-Language Navigation by Dreaming Ahead with Latent Visual Reasoning [51.969318585152116]
LatentPilotは、トレーニング中の将来の観察を貴重なデータソースとして利用して、アクション条件付きビジュアルダイナミクスを学習する。そこで本稿では,フライホイール方式のトレーニング機構を提案する。これは,道路上の軌道を反復的に収集し,エージェントの行動分布に適合するようにモデルを再訓練する。 R2R-CE、RxR-CE、R2R-PEベンチマークの実験では新たなSOTA結果が得られた。
論文参考訳（メタデータ） (2026-03-31T02:21:59Z)
ProgressVLA: Progress-Guided Diffusion Policy for Vision-Language Robotic Manipulation [57.07494675832939]
ロボット操作のための既存の視覚言語アクション(VLA)モデルは、進歩意識を欠いている。本研究では,textbf vla という新しいモデルを提案し,タスク進捗の推定と統合について検討する。 CALVINとLIBEROベンチマークの実験は、実世界のロボットの展開とともに、成功率の大幅な改善を一貫して示している。
論文参考訳（メタデータ） (2026-03-29T12:38:11Z)
GigaWorld-Policy: An Efficient Action-Centered World--Action Model [50.107640832046464]
GigaWorld-Policyはアクション中心のWAMで、2Dピクセルアクションのダイナミクスを学習し、オプションのビデオ生成で効率的なアクションデコーディングを可能にする。実世界のロボットプラットフォームでの実験結果によると、GigaWorld-Policyは主要なWAMベースラインであるMotusの9倍高速で動作する。
論文参考訳（メタデータ） (2026-03-18T00:52:02Z)
See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation [59.07792608884117]
本稿では,See, Plan, Rewind (SPR)について紹介する。 SPRは、現在の状態と今後のマイルストーンを見て、次の2Dウェイポイントに向けて軌道を計画し、障害時に回復可能な状態に戻すという、継続的なコアサイクルを通じて運用される。 SPRは、OpenVLA-OFTとUniVLAを上回る最小のパフォーマンス低下で最先端のロバスト性を達成する。
論文参考訳（メタデータ） (2026-03-10T07:22:51Z)
Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。 SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文参考訳（メタデータ） (2026-02-25T06:58:06Z)
FUTURE-VLA: Forecasting Unified Trajectories Under Real-time Execution [27.399648455932397]
FUTURE-VLAは、長期制御と将来の予測をモノリシックなシーケンス生成タスクとして再構成する統一アーキテクチャである。 FUTURE-VLAはLIBEROで99.2%、RoboTwinで75.4%、現実世界のPiperプラットフォームで78.0%の成功率を達成した。
論文参考訳（メタデータ） (2026-02-05T14:27:43Z)
MANTA: Diffusion Mamba for Efficient and Effective Stochastic Long-Term Dense Anticipation [17.4088244981231]
長期にわたる高密度な行動予測は、行動の予測と、その持続期間を未来まで数分間待つ必要があるため、困難である。本稿では, 効果的長期時間モデリングを実現するため, MANTA (MAmba for ANTicipation) ネットワークを提案する。当社のアプローチでは,Breakfast,50Salads,Ambly101という3つのデータセットに対して,最先端の結果を実現しています。
論文参考訳（メタデータ） (2025-01-15T14:46:44Z)
DiffAnt: Diffusion Models for Action Anticipation [12.022815981853071]
将来の行動を予測することは本質的に不確実である。現在進行中の行動を含む観察ビデオセグメントを考えると、複数の行動が確実に続く可能性がある。本研究では, 予測行動の予測を生成的視点から再考し, 拡散モデルを用いて, 様々な将来的行動の予測を行う。コードとトレーニングされたモデルはGitHubで公開される予定です。
論文参考訳（メタデータ） (2023-11-27T16:40:09Z)
Future Transformer for Long-term Action Anticipation [33.771374384674836]
我々はFuture Transformer(FUTR)と呼ばれる行動予測のためのエンドツーエンドの注意モデルを提案する。従来の自己回帰モデルとは異なり、提案手法は並列復号法において将来の動作のシーケンス全体を予測することを学習する。本手法は,Breakfastと50 Saladsの2つの標準ベンチマークで評価し,最先端の結果を得た。
論文参考訳（メタデータ） (2022-05-27T14:47:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。