論文の概要: ImaginationPolicy: Towards Generalizable, Precise and Reliable End-to-End Policy for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2509.20841v1
- Date: Thu, 25 Sep 2025 07:29:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.755496
- Title: ImaginationPolicy: Towards Generalizable, Precise and Reliable End-to-End Policy for Robotic Manipulation
- Title(参考訳): ImaginationPolicy:ロボットマニピュレーションのための汎用的で高精度で信頼性の高いエンドツーエンドポリシーを目指して
- Authors: Dekun Lu, Wei Gao, Kui Jia,
- Abstract要約: ロボット操作のための新しい動き指向キーポイント(CoMOK)の定式化を提案する。
私たちの定式化は、エンドツーエンドでトレーニング可能なニューラルポリシーのアクション表現として使用されます。
- 参考スコア(独自算出の注目度): 46.06124092071133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end robot manipulation policies offer significant potential for enabling embodied agents to understand and interact with the world. Unlike traditional modular pipelines, end-to-end learning mitigates key limitations such as information loss between modules and feature misalignment caused by isolated optimization targets. Despite these advantages, existing end-to-end neural networks for robotic manipulation--including those based on large VLM/VLA models--remain insufficiently performant for large-scale practical deployment. In this paper, we take a step towards an end-to-end manipulation policy that is generalizable, accurate and reliable. To achieve this goal, we propose a novel Chain of Moving Oriented Keypoints (CoMOK) formulation for robotic manipulation. Our formulation is used as the action representation of a neural policy, which can be trained in an end-to-end fashion. Such an action representation is general, as it extends the standard end-effector pose action representation and supports a diverse set of manipulation tasks in a unified manner. The oriented keypoint in our method enables natural generalization to objects with different shapes and sizes, while achieving sub-centimeter accuracy. Moreover, our formulation can easily handle multi-stage tasks, multi-modal robot behaviors, and deformable objects. Extensive simulated and hardware experiments demonstrate the effectiveness of our method.
- Abstract(参考訳): エンド・ツー・エンドのロボット操作ポリシーは、エンボディエージェントが世界を理解し、対話できるようにするための大きな可能性を秘めている。
従来のモジュールパイプラインとは異なり、エンドツーエンドの学習は、モジュール間の情報損失や、分離された最適化目標による機能ミスアライメントといった重要な制限を緩和する。
これらの利点にもかかわらず、ロボット操作のための既存のエンドツーエンドのニューラルネットワーク — 大きなVLM/VLAモデルに基づくものを含む — は、大規模な実践的デプロイメントに不十分なパフォーマンスを保っている。
本稿では、一般化可能で、正確で信頼性の高いエンドツーエンドの操作ポリシーへの一歩を踏み出す。
この目的を達成するために,ロボット操作のための新しい移動方向キーポイント(CoMOK)の定式化を提案する。
私たちの定式化は、エンドツーエンドでトレーニング可能なニューラルポリシーのアクション表現として使用されます。
このようなアクション表現は、標準のエンドエフェクタ・ポーズ・アクション表現を拡張し、統一された方法で様々な操作タスク群をサポートするため、一般的なものである。
本手法のキーポイントは, 形状や大きさの異なるオブジェクトに対して, サブセンチメートル精度を達成しつつ, 自然な一般化を可能にする。
さらに,マルチステージタスク,マルチモーダルロボット動作,変形可能なオブジェクトの処理も容易である。
シミュレーションおよびハードウェア実験により,本手法の有効性を実証した。
関連論文リスト
- Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids [56.892520712892804]
本稿では,ヒューマノイドロボットを訓練して3つの巧妙な操作を行う,実用的なシミュレート・トゥ・リアルなRLレシピを提案する。
未確認のオブジェクトやロバストで適応的な政策行動に対して高い成功率を示す。
論文 参考訳(メタデータ) (2025-02-27T18:59:52Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - ManipLLM: Embodied Multimodal Large Language Model for Object-Centric
Robotic Manipulation [22.071450379253235]
MLLM(Multimodal Large Language Models)の頑健な推論機能を活用したロボット操作のための革新的なアプローチを提案する。
インジェクトアダプタの微調整により,MLLMの固有共通感覚と推論能力を保ちながら,操作能力も備えている。
シミュレータと実世界の実験は,ManipLLMの有望な性能を示している。
論文 参考訳(メタデータ) (2023-12-24T06:38:11Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Programmatically Grounded, Compositionally Generalizable Robotic
Manipulation [35.12811184353626]
意味表現を統合化するための従来の事前学習ファインタニングパイプラインは、ドメイン固有の行動情報の学習に絡み合っていることを示す。
本稿では,言語命令の統語的構造と意味的構造を利用して,事前学習モデルを活用するモジュール方式を提案する。
我々のモデルは、様々な操作行動において、ゼロショットと合成の一般化を改善するために、動作と知覚をうまく切り離すことに成功している。
論文 参考訳(メタデータ) (2023-04-26T20:56:40Z) - Canonical mapping as a general-purpose object descriptor for robotic
manipulation [0.0]
準ユニバーサルでフレキシブルなオブジェクト記述子としてカノニカルマッピングを提案する。
本研究では,1つの事前学習された標準写像モデルから共通オブジェクト表現を導出できることを実証する。
2つのロボットアームを用いた多段階実験を行い、知覚アプローチの堅牢性を実証した。
論文 参考訳(メタデータ) (2023-03-02T15:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。