論文の概要: Embodied Robot Manipulation in the Era of Foundation Models: Planning and Learning Perspectives
- arxiv url: http://arxiv.org/abs/2512.22983v1
- Date: Sun, 28 Dec 2025 16:05:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.539848
- Title: Embodied Robot Manipulation in the Era of Foundation Models: Planning and Learning Perspectives
- Title(参考訳): 基礎モデル時代における身体ロボットの操作--計画と学習の視点から
- Authors: Shuanghao Bai, Wenxuan Song, Jiayi Chen, Yuheng Ji, Zhide Zhong, Jin Yang, Han Zhao, Wanqi Zhou, Zhe Li, Pengxiang Ding, Cheng Chi, Chang Xu, Xiaolong Zheng, Donglin Wang, Haoang Li, Shanghang Zhang, Badong Chen,
- Abstract要約: 近年のビジョン,言語,マルチモーダル学習の進歩は,ロボット基礎モデルの進歩を加速させている。
本研究は,ロボットの操作をアルゴリズムの観点から検討する。
我々は、近年の学習に基づくアプローチを、高レベルの計画と低レベルの制御の統一的な抽象化の中に整理する。
- 参考スコア(独自算出の注目度): 101.22313265304979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in vision, language, and multimodal learning have substantially accelerated progress in robotic foundation models, with robot manipulation remaining a central and challenging problem. This survey examines robot manipulation from an algorithmic perspective and organizes recent learning-based approaches within a unified abstraction of high-level planning and low-level control. At the high level, we extend the classical notion of task planning to include reasoning over language, code, motion, affordances, and 3D representations, emphasizing their role in structured and long-horizon decision making. At the low level, we propose a training-paradigm-oriented taxonomy for learning-based control, organizing existing methods along input modeling, latent representation learning, and policy learning. Finally, we identify open challenges and prospective research directions related to scalability, data efficiency, multimodal physical interaction, and safety. Together, these analyses aim to clarify the design space of modern foundation models for robotic manipulation.
- Abstract(参考訳): 近年の視覚、言語、マルチモーダル学習の進歩はロボット基礎モデルの進歩を著しく加速させており、ロボット操作は中心的で困難な問題のままである。
本研究は,ロボット操作をアルゴリズムの観点から検討し,高度計画と低レベル制御の統一的な抽象化の中で,近年の学習に基づくアプローチを整理する。
高いレベルでは、古典的なタスクプランニングの概念を拡張して、言語、コード、動き、余裕、そして3D表現を推論し、構造化された、長期の意思決定におけるそれらの役割を強調します。
低レベルにおいて、我々は学習に基づく制御のための訓練パラダイム指向の分類法を提案し、既存の手法を入力モデル、潜在表現学習、ポリシー学習に沿って整理する。
最後に,スケーラビリティ,データ効率,マルチモーダルな物理的相互作用,安全性に関するオープンな課題と今後の研究方向性を明らかにする。
これらの分析は,ロボット操作のための現代基盤モデルの設計空間を明らかにすることを目的としている。
関連論文リスト
- A Survey on Generative Recommendation: Data, Model, and Tasks [55.36322811257545]
ジェネレーティブ・レコメンデーションは、差別的なスコアではなく、世代としてのレコメンデーションを再認識する。
この調査は、データ、モデル、タスク次元にまたがる統合された三部構成のフレームワークを通じて包括的な調査を提供する。
世界知識の統合、自然言語理解、推論能力、スケーリング法則、創造的生成の5つの主要な利点を特定します。
論文 参考訳(メタデータ) (2025-10-31T04:02:58Z) - Humanoid Agent via Embodied Chain-of-Action Reasoning with Multimodal Foundation Models for Zero-Shot Loco-Manipulation [23.43820490179566]
Humanoid-COAはゼロショットロコ操作のためのエボディード・チェーン・オブ・アクション機構と基礎モデル推論を統合している。
我々のフレームワークは、操作、移動、およびロコ操作タスクにおいて、以前のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-04-13T11:37:32Z) - A Survey of Embodied Learning for Object-Centric Robotic Manipulation [27.569063968870868]
オブジェクト中心のロボット操作のための身体学習は、AIの急速に発展し、挑戦的な分野である。
データ駆動機械学習とは異なり、具体化学習は環境との物理的相互作用を通じてロボット学習に焦点を当てる。
論文 参考訳(メタデータ) (2024-08-21T11:32:09Z) - A Survey on Robotics with Foundation Models: toward Embodied AI [30.999414445286757]
近年のコンピュータビジョン,自然言語処理,マルチモーダリティ学習の進歩は,基礎モデルが特定のタスクに対して超人的能力を持つことを示している。
この調査は、ロボット工学の基礎モデルの包括的で最新の概要を提供し、自律的な操作に焦点を当て、高レベルの計画と低レベルの制御を包含することを目的としている。
論文 参考訳(メタデータ) (2024-02-04T07:55:01Z) - Foundation Models for Decision Making: Problems, Methods, and
Opportunities [124.79381732197649]
大規模に多様なデータに基づいて事前訓練された基礎モデルは、幅広いビジョンと言語タスクにおいて異常な能力を示してきた。
ファンデーションモデルをトレーニングし、他のエージェントと対話し、長期的な推論を行うための新しいパラダイムが生まれている。
基礎モデルと意思決定の交わりにおける研究は、強力な新しいシステムを作るための大きな約束である。
論文 参考訳(メタデータ) (2023-03-07T18:44:07Z) - Deep Active Learning for Computer Vision: Past and Future [50.19394935978135]
AIモデルの開発に欠かせない役割にもかかわらず、アクティブラーニングの研究は他の研究の方向性ほど集中的ではない。
データ自動化の課題に対処し、自動化された機械学習システムに対処することによって、アクティブな学習はAI技術の民主化を促進する。
論文 参考訳(メタデータ) (2022-11-27T13:07:14Z) - Procedure Planning in Instructional Videosvia Contextual Modeling and
Model-based Policy Learning [114.1830997893756]
本研究は,実生活ビデオにおける目標指向アクションを計画するモデルを学習することに焦点を当てる。
本研究では,ベイズ推論とモデルに基づく模倣学習を通して,人間の行動のモデル化を行う新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-05T01:06:53Z) - Towards open and expandable cognitive AI architectures for large-scale
multi-agent human-robot collaborative learning [5.478764356647437]
多エージェントLfDロボット学習のための新しい認知アーキテクチャを導入し、オープンでスケーラブルで拡張可能なロボットシステムの信頼性の高い展開を可能にする。
この概念化は、ロボットプラットフォームのネットワークの端ノードで動作する複数のAI駆動の認知プロセスを採用することに依存している。
提案フレームワークの適用性は,実世界の産業ケーススタディの例を用いて説明できる。
論文 参考訳(メタデータ) (2020-12-15T09:49:22Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。