論文の概要: STORM: Search-Guided Generative World Models for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2512.18477v1
- Date: Sat, 20 Dec 2025 19:40:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.357426
- Title: STORM: Search-Guided Generative World Models for Robotic Manipulation
- Title(参考訳): STORM:ロボットマニピュレーションのための検索ガイド付き生成ワールドモデル
- Authors: Wenjun Lin, Jensen Zhang, Kaitong Cai, Keze Wang,
- Abstract要約: STORMはロボット操作における時間的推論のためのフレームワークである。
拡散に基づくアクション生成、条件付きビデオ予測、検索ベースの計画を統合する。
ストームは視覚的に計画を立て、解釈可能でフォアサイト駆動の意思決定を可能にする。
- 参考スコア(独自算出の注目度): 10.365032830677162
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present STORM (Search-Guided Generative World Models), a novel framework for spatio-temporal reasoning in robotic manipulation that unifies diffusion-based action generation, conditional video prediction, and search-based planning. Unlike prior Vision-Language-Action (VLA) models that rely on abstract latent dynamics or delegate reasoning to language components, STORM grounds planning in explicit visual rollouts, enabling interpretable and foresight-driven decision-making. A diffusion-based VLA policy proposes diverse candidate actions, a generative video world model simulates their visual and reward outcomes, and Monte Carlo Tree Search (MCTS) selectively refines plans through lookahead evaluation. Experiments on the SimplerEnv manipulation benchmark demonstrate that STORM achieves a new state-of-the-art average success rate of 51.0 percent, outperforming strong baselines such as CogACT. Reward-augmented video prediction substantially improves spatio-temporal fidelity and task relevance, reducing Frechet Video Distance by over 75 percent. Moreover, STORM exhibits robust re-planning and failure recovery behavior, highlighting the advantages of search-guided generative world models for long-horizon robotic manipulation.
- Abstract(参考訳): 本稿では,拡散に基づく行動生成,条件付きビデオ予測,探索に基づく計画を統合するロボット操作における時空間推論のための新しいフレームワークSTORMを提案する。
抽象的な潜伏ダイナミクスや言語コンポーネントへの委譲推論に依存する以前のVision-Language-Action(VLA)モデルとは異なり、STORMは明示的なビジュアルロールアウトで計画し、解釈可能でフォアサイト駆動の意思決定を可能にする。
拡散型VLAポリシーは多様な候補行動を提案し、生成的ビデオワールドモデルは視覚的および報酬的な結果をシミュレートし、モンテカルロ木探索(MCTS)はルックアヘッド評価によって計画を選択的に洗練する。
SimplerEnv操作ベンチマークの実験では、STORMが新しい最先端の平均成功率は51.0%に達し、CogACTのような強力なベースラインを上回っている。
Reward-augmented Video Predictionは、時空間の忠実度とタスク関連性を大幅に改善し、Frechet Video Distanceを75%以上削減する。
さらに、STORMは堅牢な再計画と障害復旧行動を示し、長距離ロボット操作のための探索誘導生成世界モデルの利点を強調している。
関連論文リスト
- mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs [5.109732854501585]
そこで我々は,事前学習したインターネットスケールのビデオモデルと,その潜在表現に条件付けされたフローマッチングに基づくアクションデコーダを組み合わせた,新しいビデオ・アクション・モデル(VAM)を提案する。
提案手法は,シミュレーションおよび実世界のロボット操作タスクにおける最先端性能を実現し,サンプル効率を10倍,収束速度を2倍向上させる。
論文 参考訳(メタデータ) (2025-12-17T18:47:31Z) - Reinforcement Learning with Inverse Rewards for World Model Post-training [29.19830208692156]
ビデオワールドモデルにおける動作追跡を改善するために,逆回帰を用いた強化学習を提案する。
RLIRは、逆ダイナミクスモデルを用いて生成されたビデオから入力アクションを復元することにより、検証可能な報酬信号を導出する。
論文 参考訳(メタデータ) (2025-09-28T16:27:47Z) - Unified Vision-Language-Action Model [86.68814779303429]
我々は、視覚、言語、行動信号を離散トークンシーケンスとして自動回帰モデル化する、統一的でネイティブなマルチモーダルVLAモデルUniVLAを提案する。
提案手法は, CALVIN, LIBERO, Simplenv-Bridge など, 広く使用されているシミュレーションベンチマークにまたがって, 最新の結果を設定する。
さらに、現実世界のALOHA操作と自律運転に適用可能であることを実証する。
論文 参考訳(メタデータ) (2025-06-24T17:59:57Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - LaDi-WM: A Latent Diffusion-based World Model for Predictive Manipulation [45.02469804709771]
拡散モデルを用いて将来の状態の潜伏空間を予測する世界モデルLaDi-WMを提案する。
LIBERO-LONGベンチマークでは,LaDi-WMが27.9%,現実シナリオでは20%,政策性能が著しく向上することを示した。
論文 参考訳(メタデータ) (2025-05-13T04:42:14Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Strengthening Generative Robot Policies through Predictive World Modeling [25.45350191178106]
生成予測制御(英: Generative predictive Control、GPC)は、専門家による実証から生成拡散ベースのポリシーをクローンする学習制御フレームワークである。
GPCは、状態ベースの設定と視覚ベースの設定の両方において、振舞いのクローンを一貫して上回っている。
論文 参考訳(メタデータ) (2025-02-02T01:21:19Z) - EVA: An Embodied World Model for Future Video Anticipation [30.721105710709008]
ビデオ生成モデルは将来の状態をシミュレートする上で大きな進歩を遂げており、擬似シナリオにおける世界シミュレータとしての可能性を示している。
既存のモデルは、しばしば堅牢な理解が欠如しており、マルチステップの予測を実行したり、アウト・オブ・ディストリビューション(OOD)シナリオを処理する能力を制限する。
本稿では,映像予測の強化を目的とした中間的推論手法であるリフレクション・オブ・ジェネレーション(RoG)を提案する。
論文 参考訳(メタデータ) (2024-10-20T18:24:00Z) - A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。
私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。
次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文 参考訳(メタデータ) (2023-04-26T17:59:45Z) - Continual Visual Reinforcement Learning with A Life-Long World Model [55.05017177980985]
視覚力学モデリングのための新しい連続学習手法を提案する。
まず,タスク固有の潜在ダイナミクスを学習する長寿命世界モデルを紹介する。
そして,探索・保守的行動学習手法を用いて,過去の課題に対する価値推定問題に対処する。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。