論文の概要: World Models for Robotic Manipulation: A Survey
- arxiv url: http://arxiv.org/abs/2606.00113v1
- Date: Wed, 27 May 2026 05:32:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 15:59:20.364349
- Title: World Models for Robotic Manipulation: A Survey
- Title(参考訳): ロボットマニピュレーションのための世界モデル:サーベイ
- Authors: Fangyuan Wang, Ziyuan Wang, Guorui Pei, Mengshi Zhang, Canxi Liang, Jun Hu, Zhongxuan Li, Jinsong Wu, Ning Han, Zeqing Zhang, Jiaming Qi, Hongmin Wu, Shiyao Zhang, Pai Zheng, Jia Pan, David Navarro-Alarcon, Sichao Liu, Peng Zhou,
- Abstract要約: ロボット操作のための世界モデルについて3つの質問を通して調査する。
我々は,世界モデルを行動条件付き予測システムとして運用的に定義する。
合成経験生成、候補フィルタリング、検索に基づく評価、学習環境、結果検証などのインフラの役割を特徴付ける。
- 参考スコア(独自算出の注目度): 30.864774708923147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic manipulation depends on the ability to anticipate how actions reshape objects, contacts, and scene geometry before execution. Learned world models provide this capability by predicting task-relevant future evolution under robot intervention, yet the term now spans latent dynamics models, action-conditioned video generators, three- and four-dimensional scene predictors, physics-informed simulators, and predictive modules inside vision-language-action systems. This breadth has fragmented the literature and obscured the design choices that matter for manipulation. We survey world models for robotic manipulation through three questions: what future representation is predicted, how prediction is connected to action, and when prediction is used in the robot-learning pipeline. We operationally define a world model as an action-conditioned predictive system and distinguish it from perception modules, inverse models, policies, rewards, and value functions. We then organize existing work into five representation families, develop a functional taxonomy that separates integrated prediction-action models from explicit predictive planners, and characterize infrastructure roles including synthetic experience generation, candidate filtering, search-based evaluation, learned environments, and outcome verification. We further map these roles across pretraining, post-training, and inference adaptation, review 34 manipulation datasets, and synthesize evaluation protocols for predictive fidelity, task performance, and simulator reliability. This survey shows that world models are evolving from task-specific dynamics predictors into predictive infrastructure for robot learning, while exposing open challenges in contact modeling, hallucination control, action alignment, and benchmarking under closed-loop use.
- Abstract(参考訳): ロボット操作は、動作が実行前にオブジェクト、連絡先、シーン幾何学をどのように形成するかを予測する能力に依存する。
学習された世界モデルは、ロボット介入下でのタスク関連将来の進化を予測することによって、この能力を提供するが、現在では、潜時力学モデル、アクション条件付きビデオジェネレータ、3次元および4次元シーン予測器、物理インフォームドシミュレータ、視覚言語アクションシステム内の予測モジュールにまたがっている。
この広さは文学を断片化し、操作に重要な設計上の選択を曖昧にした。
ロボット操作のための世界モデルについて,未来表現が予測されるか,行動とどのように結びつくのか,ロボット学習パイプラインでいつ予測されるのか,という3つの質問を通じて調査する。
我々は、世界モデルを行動条件付き予測システムとして運用的に定義し、認識モジュール、逆モデル、ポリシー、報酬、価値関数と区別する。
次に、既存の作業を5つの表現ファミリーに分類し、統合予測モデルと明確な予測プランナーを分離する機能分類を開発し、合成経験生成、候補フィルタリング、検索に基づく評価、学習環境、結果検証を含むインフラストラクチャーの役割を特徴付ける。
さらに、これらの役割を事前訓練、訓練後、推論適応、34の操作データセットのレビュー、予測忠実度、タスクパフォーマンス、シミュレータの信頼性の評価プロトコルの合成などにわたってマッピングする。
この調査は、世界モデルがタスク固有のダイナミクス予測器からロボット学習の予測基盤へと進化しつつあり、接触モデリング、幻覚制御、アクションアライメント、クローズドループ使用時のベンチマークといったオープンな課題を明らかにしていることを示している。
関連論文リスト
- HarmoWAM: Harmonizing Generalizable and Precise Manipulation via Adaptive World Action Models [58.191567345416836]
世界行動モデル(WAM)は、物理力学のモデリングによるロボット制御のための有望なパラダイムとして登場した。
HarmoWAMは、予測と反応の制御を統一するために世界モデルを完全に活用し、一般的なトランジットと正確な操作を可能にする。
実世界の6つのロボットタスクにまたがる3つのトレーニング未確認テスト環境を構築し、背景、位置、オブジェクトの意味のバリエーションをカバーした。
論文 参考訳(メタデータ) (2026-05-11T17:59:56Z) - Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond [209.35045331678043]
2つの軸に沿って組織された「レベルx法」の分類を導入します。
第一に、3つの能力レベルを定義している: 1段階の局所遷移演算子を学ぶL1 Predictor、それらをドメインの法則を尊重する多段階のアクション条件付きロールアウトに構成するL2 Simulator、新しいエビデンスに対して予測が失敗すると自己のモデルを自動で修正するL3 Evolver。
我々は400以上の作品を合成し、モデルに基づく強化学習、ビデオ生成、WebおよびGUIエージェント、マルチエージェント社会シミュレーション、AIによる科学的発見にまたがる100以上の代表システムを要約する。
論文 参考訳(メタデータ) (2026-04-24T17:48:47Z) - Causal World Modeling for Robot Control [56.31803788587547]
ビデオワールドモデルは、アクションと視覚力学の因果関係を理解することによって、近い将来に想像できる能力を提供する。
本稿では,フレーム予測とポリシ実行を同時に学習する自動回帰拡散フレームワークLingBot-VAを紹介する。
シミュレーションベンチマークと実世界のシナリオの両方でモデルを評価したところ、長距離操作、ポストトレーニングにおけるデータ効率、新しい構成への強力な一般化性などに大きな可能性を示唆している。
論文 参考訳(メタデータ) (2026-01-29T17:07:43Z) - A Step Toward World Models: A Survey on Robotic Manipulation [58.8419978790227]
本稿では,ロボット操作の手法のレビューを通じて,世界モデルのコア機能を示すアプローチについて考察する。
我々は、認識、予測、制御にまたがる役割を分析し、主要な課題と解決策を特定し、完全に実現された世界モデルが持つべきコアコンポーネント、能力、機能を蒸留する。
論文 参考訳(メタデータ) (2025-10-31T00:57:24Z) - Learning Coordinated Bimanual Manipulation Policies using State Diffusion and Inverse Dynamics Models [22.826115023573205]
我々は人間の操作戦略の予測的性質をロボット模倣学習に注入する。
我々は,将来の状態を予測し,予測状態を達成するロボット動作を計算するために拡散モデルを訓練する。
我々のフレームワークは、常に最先端のステート・ツー・アクション・マッピングポリシーを上回ります。
論文 参考訳(メタデータ) (2025-03-30T01:25:35Z) - RoboPack: Learning Tactile-Informed Dynamics Models for Dense Packing [38.97168020979433]
本稿では, 視覚と触覚を組み合わせ, 触覚インフォームド・ダイナミックスモデルを学習することでロボット操作を実現するアプローチを提案する。
提案するフレームワークであるRoboPackは、オブジェクト状態を推定するために、リカレントグラフニューラルネットワークを使用している。
我々は,非包括的操作と密包装作業に対するソフトバブル触覚センサを備えた実ロボットへのアプローチを実証する。
論文 参考訳(メタデータ) (2024-07-01T16:08:37Z) - A Control-Centric Benchmark for Video Prediction [69.22614362800692]
本稿では,アクション条件付きビデオ予測のベンチマークを,制御ベンチマークの形式で提案する。
私たちのベンチマークには、11のタスクカテゴリと310のタスクインスタンス定義を備えたシミュレーション環境が含まれています。
次に、ベンチマークを活用して、スケールするモデルサイズ、トレーニングデータの量、モデルアンサンブルの影響を調査します。
論文 参考訳(メタデータ) (2023-04-26T17:59:45Z) - Factored World Models for Zero-Shot Generalization in Robotic
Manipulation [7.258229016768018]
我々は、オブジェクト指向世界モデルを用いてロボットピック・アンド・プレイス・タスクを一般化することを学ぶ。
グラフニューラルネットワークの残差スタックを使用して、ノードとエッジの両方のニューラルネットワークにおいて、複数のレベルのアクション情報を受信する。
モデルアンサンブルを用いて、最大12個のピック・アンド・プレイス・アクションを含むタスクを検索で計画できることが示される。
論文 参考訳(メタデータ) (2022-02-10T21:26:11Z) - Scene Transformer: A unified multi-task model for behavior prediction
and planning [42.758178896204036]
実世界の運転環境における全てのエージェントの行動予測モデルを定式化する。
近年の言語モデリングアプローチにインスパイアされた我々は、マスキング戦略をモデルに対するクエリとして使用しています。
我々は,行動予測のための自律走行データセットに対するアプローチを評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-06-15T20:20:44Z) - Multimodal Deep Generative Models for Trajectory Prediction: A
Conditional Variational Autoencoder Approach [34.70843462687529]
本研究では,人間の行動予測に対する条件付き変分オートエンコーダアプローチに関する自己完結型チュートリアルを提供する。
本チュートリアルの目的は,人間の行動予測における最先端の手法の分類をレビューし,構築することである。
論文 参考訳(メタデータ) (2020-08-10T03:18:27Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。