論文の概要: LLM-Guided Future Hypotheses for Horizon-Aware Exploration in Multi-Step Robot Manipulation
- arxiv url: http://arxiv.org/abs/2605.29864v1
- Date: Thu, 28 May 2026 12:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.249905
- Title: LLM-Guided Future Hypotheses for Horizon-Aware Exploration in Multi-Step Robot Manipulation
- Title(参考訳): マルチステップロボットマニピュレーションにおける水平方向探索のためのLCMガイドによる将来仮説
- Authors: Mohammad Khoshnazar, Andrew Melnik, Michael Beetz,
- Abstract要約: マルチステップロボット操作では、シーンがどのように進化するかの不確実性の下で行動する必要がある。
本研究では,短時間のタスク一貫性のある未来のビデオが,制御や強化学習の微調整に有用であるかどうかを考察する。
- 参考スコア(独自算出の注目度): 5.637033593506126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-step robot manipulation requires acting under uncertainty about how the scene will evolve, making exploration and policy adaptation challenging. We study whether short-horizon, task-consistent future videos can provide useful structured priors for control and reinforcement-learning fine-tuning. We formalize this idea through Future-Experience Conditioning (FEC), a simple interface that conditions closed-loop policies on a latent representation of a short future video. In our simulation setup, future clips are generated in three stages, an LLM reasoner operating over a task ontology initialized from the current scene state, a robot-free digital-twin rollout of the intended object motion, and a mask-free video diffusion model that synthesizes a robot-consistent future clip without requiring segmentation at inference. We instantiate this future-conditioning interface primarily with BC and BC+RL, and compare against a future-conditioned Streaming Flow Policy (SFP) baseline on RoboCasa and CALVIN under NoFuture, GTFuture, GenFuture, and WrongFuture. Generated futures improve performance over no-future conditioning, while mismatched futures degrade it, and our BC+RL instantiation achieves the strongest overall results. An average BC+RL learning-curve analysis across 8 CALVIN tasks further shows that GTFuture improves fastest, GenFuture improves earlier and to a higher level than NoFuture, and WrongFuture remains at zero throughout training. These results suggest that short-horizon future videos can serve as useful structured priors for exploration and policy adaptation under imperfect future predictions. https://enact2026.github.io/
- Abstract(参考訳): マルチステップロボット操作は、シーンがどのように進化するかの不確実性の下で行動することを必要とし、探索とポリシー適応を困難にしている。
短時間のタスク一貫性のある未来のビデオが、制御や強化学習の微調整に有用な構造化された事前情報を提供できるかどうかを考察する。
我々は,このアイデアを,近未来のビデオの潜在表現にクローズドループポリシーを条件付けるシンプルなインターフェースであるFuture-Experience Conditioning (FEC) を通じて形式化する。
シミュレーションでは,現在のシーン状態から初期化したタスクオントロジーを操作可能なLCM推論器,対象物の動きのロボットフリーデジタルツインロールアウト,推論のセグメンテーションを必要とせずにロボットと共存する将来のクリップを合成するマスクフリービデオ拡散モデル,の3段階で将来のクリップを生成する。
我々は,この将来条件のインターフェースを,主にBCとBC+RLでインスタンス化し,NoFuture,GTFuture,GenFuture,WrongFutureの下で,RoboCasaおよびCALVIN上の将来条件のストリーミングフローポリシー(SFP)ベースラインと比較する。
生成した先物は、非未来条件よりも性能を向上し、不一致先物は劣化し、BC+RLインスタンス化は、最も優れた総合的な結果を得る。
8つのCALVINタスクの平均BC+RL学習曲線解析により、GTFutureは高速に改善され、GenFutureはNoFutureよりも早く、より高いレベルまで改善され、WrongFutureはトレーニングを通してゼロのままである。
これらの結果から, 近地将来の映像は, 不完全な将来予測の下での探索・政策適応に有用な構造化された先行映像として機能する可能性が示唆された。
https://enact2026.github.io/
関連論文リスト
- From Imagined Futures to Executable Actions: Mixture of Latent Actions for Robot Manipulation [88.39072412680633]
将来の映像を実行可能な表現に変換する制御指向インタフェースであるMoLAを提案する。
我々は,シミュレーションベンチマークと実世界のロボット操作タスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2026-05-12T14:15:16Z) - GigaWorld-Policy: An Efficient Action-Centered World--Action Model [50.107640832046464]
GigaWorld-Policyはアクション中心のWAMで、2Dピクセルアクションのダイナミクスを学習し、オプションのビデオ生成で効率的なアクションデコーディングを可能にする。
実世界のロボットプラットフォームでの実験結果によると、GigaWorld-Policyは主要なWAMベースラインであるMotusの9倍高速で動作する。
論文 参考訳(メタデータ) (2026-03-18T00:52:02Z) - Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations [19.45821593625599]
ビデオ拡散モデル(VDM)は、将来のフレームを予測し、物理的な世界を強く理解する能力を示す。
本稿では,VDM内の将来予測表現を条件とした暗黙的逆ダイナミクスモデル(VPP)を学習するビデオ予測ポリシーを提案する。
VPPはCalvin ABC-Dの一般化ベンチマークを18.6%改善した。
論文 参考訳(メタデータ) (2024-12-19T12:48:40Z) - GePSAn: Generative Procedure Step Anticipation in Cooking Videos [22.908511747910197]
プロシージャビデオにおける将来のステップ予測の問題について検討する。
進行中の手続き的活動のビデオから、我々はリッチな自然言語で記述された妥当な次の手順を予測する。
本モデルでは,次のステップの予測において多様性を捉え,複数の予測可能な将来予測を生成する。
論文 参考訳(メタデータ) (2023-10-12T13:20:17Z) - Policy Gradients Incorporating the Future [66.20567145291342]
我々はエージェントが明示的に予測することなく「未来を見る」方法を紹介した。
我々は,エージェントが過去の経験を学習中に,その将来に何が起こったのかを観察できるように提案する。
これにより、エージェントは、現在に加えて、将来の軌道力学に関するリッチで有用な情報を利用することができる。
論文 参考訳(メタデータ) (2021-08-04T14:57:11Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z) - Learning to Anticipate Egocentric Actions by Imagination [60.21323541219304]
我々は,エゴセントリックなアクション予測タスクについて検討し,エゴセントリックなビデオの再生に先立って,将来のアクション秒を予測する。
本手法は, EPIC Kitchens Action Precipation Challenge の既視テストセットと未確認テストセットの両方において, 従来手法を有意に上回った。
論文 参考訳(メタデータ) (2021-01-13T08:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。