論文の概要: FUNCanon: Learning Pose-Aware Action Primitives via Functional Object Canonicalization for Generalizable Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2509.19102v1
- Date: Tue, 23 Sep 2025 14:49:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.909438
- Title: FUNCanon: Learning Pose-Aware Action Primitives via Functional Object Canonicalization for Generalizable Robotic Manipulation
- Title(参考訳): FUNCanon: 汎用ロボットマニピュレーションのための機能的対象正準化によるPose-Aware Action Primitivesの学習
- Authors: Hongli Xu, Lei Zhang, Xiaoyue Hu, Boyang Zhong, Kaixin Bai, Zoltán-Csaba Márton, Zhenshan Bing, Zhaopeng Chen, Alois Christian Knoll, Jianwei Zhang,
- Abstract要約: 我々は、長い水平操作タスクをアクションチャンクのシーケンスに変換するフレームワークであるFunCanonを紹介した。
これらのチャンクは、独立したタスクではなく、アクション自体にポリシー学習を重点を置いています。
シミュレーションおよび実世界のベンチマークの実験では、カテゴリレベルの一般化、クロスタスクの振る舞いの再利用、堅牢なsim2realデプロイメントが示されている。
- 参考スコア(独自算出の注目度): 25.631729484747087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General-purpose robotic skills from end-to-end demonstrations often leads to task-specific policies that fail to generalize beyond the training distribution. Therefore, we introduce FunCanon, a framework that converts long-horizon manipulation tasks into sequences of action chunks, each defined by an actor, verb, and object. These chunks focus policy learning on the actions themselves, rather than isolated tasks, enabling compositionality and reuse. To make policies pose-aware and category-general, we perform functional object canonicalization for functional alignment and automatic manipulation trajectory transfer, mapping objects into shared functional frames using affordance cues from large vision language models. An object centric and action centric diffusion policy FuncDiffuser trained on this aligned data naturally respects object affordances and poses, simplifying learning and improving generalization ability. Experiments on simulated and real-world benchmarks demonstrate category-level generalization, cross-task behavior reuse, and robust sim2real deployment, showing that functional canonicalization provides a strong inductive bias for scalable imitation learning in complex manipulation domains. Details of the demo and supplemental material are available on our project website https://sites.google.com/view/funcanon.
- Abstract(参考訳): エンドツーエンドのデモによる汎用ロボットスキルは、トレーニング分布を超えて一般化できないタスク固有のポリシーにつながることが多い。
したがって、FunCanonは、長い水平操作タスクをアクター、動詞、オブジェクトによって定義されたアクションチャンクのシーケンスに変換するフレームワークである。
これらのチャンクは、分離されたタスクではなく、アクション自体にポリシー学習を集中させ、構成性と再利用を可能にします。
そこで我々は,機能的アライメントと自動操作トラジェクトリ転送のための機能的オブジェクト正準化を行い,大きな視覚言語モデルから手頃な情報を用いてオブジェクトを共有機能的フレームにマッピングする。
オブジェクト中心でアクション中心の拡散ポリシー FuncDiffuserは、この整列したデータに基づいて、自然にオブジェクトの余裕とポーズを尊重し、学習を簡素化し、一般化能力を向上させる。
シミュレーションおよび実世界のベンチマークの実験では、カテゴリレベルの一般化、クロスタスクの振る舞いの再利用、ロバストなsim2realデプロイメントが示され、関数的正準化が複雑な操作領域におけるスケーラブルな模倣学習に強力な帰納バイアスを与えることを示した。
デモと補足資料の詳細は、プロジェクトのWebサイトhttps://sites.google.com/view/funcanon.comで確認できます。
関連論文リスト
- MimicFunc: Imitating Tool Manipulation from a Single Human Video via Functional Correspondence [18.953496415412335]
人間のビデオからツールを操作することは、ロボットを教えるための直感的なアプローチを提供する。
関数フレームとの関数対応を確立するフレームワークであるMimicFuncを提案する。
MimicFuncは、単一のRGB-Dビデオから新しいツールを操作するためのスキルを効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-19T05:49:47Z) - Adaptive Articulated Object Manipulation On The Fly with Foundation Model Reasoning and Part Grounding [18.52792284421002]
アーティキュレートされたオブジェクトは、さまざまな操作課題をロボットにもたらす。
内部構造は直接観測できないため、ロボットは操作軌道を生成するために適応的に動作を探索し、洗練する必要がある。
AdaRPGは、基礎モデルを利用してオブジェクトを抽出する新しいフレームワークで、オブジェクト全体よりも局所的な幾何学的類似性を示す。
論文 参考訳(メタデータ) (2025-07-24T10:25:58Z) - Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Learning from 10 Demos: Generalisable and Sample-Efficient Policy Learning with Oriented Affordance Frames [10.738838923944876]
既存の方法は、タスクのバリエーションをカバーするために、かなりの数のデモを必要とする。
我々は、状態空間と行動空間の構造化表現である指向性アプライアンスフレームを導入する。
この抽象化によって、独立に訓練されたサブ政治の構成的一般化が可能となることを示す。
本手法は実世界の3つのタスクにまたがって検証し,多段階多目的インタラクションを必要とする。
論文 参考訳(メタデータ) (2024-10-15T23:57:35Z) - Learning Reusable Manipulation Strategies [86.07442931141634]
人間は「トリック」を習得し、一般化する素晴らしい能力を実証する
本稿では,機械が1つの実演と自己演奏によってこのような操作スキルを習得することを可能にするフレームワークを提案する。
これらの学習メカニズムとサンプルは、標準的なタスクやモーションプランナにシームレスに統合できる。
論文 参考訳(メタデータ) (2023-11-06T17:35:42Z) - Kinematic-aware Prompting for Generalizable Articulated Object
Manipulation with LLMs [53.66070434419739]
汎用的なオブジェクト操作は、ホームアシストロボットにとって不可欠である。
本稿では,物体のキネマティックな知識を持つ大規模言語モデルに対して,低レベル動作経路を生成するキネマティック・アウェア・プロンプト・フレームワークを提案する。
我々のフレームワークは8つのカテゴリで従来の手法よりも優れており、8つの未確認対象カテゴリに対して強力なゼロショット能力を示している。
論文 参考訳(メタデータ) (2023-11-06T03:26:41Z) - Programmatically Grounded, Compositionally Generalizable Robotic
Manipulation [35.12811184353626]
意味表現を統合化するための従来の事前学習ファインタニングパイプラインは、ドメイン固有の行動情報の学習に絡み合っていることを示す。
本稿では,言語命令の統語的構造と意味的構造を利用して,事前学習モデルを活用するモジュール方式を提案する。
我々のモデルは、様々な操作行動において、ゼロショットと合成の一般化を改善するために、動作と知覚をうまく切り離すことに成功している。
論文 参考訳(メタデータ) (2023-04-26T20:56:40Z) - Inferring Versatile Behavior from Demonstrations by Matching Geometric
Descriptors [72.62423312645953]
人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変化させる。
現在のImitation Learningアルゴリズムは、通常、単調な専門家によるデモンストレーションのみを考慮し、状態アクションベースの設定で行動する。
代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。
論文 参考訳(メタデータ) (2022-10-17T16:42:59Z) - Plug and Play, Model-Based Reinforcement Learning [60.813074750879615]
我々は、既知のオブジェクトクラスから新しいオブジェクトをゼロショットで統合できるオブジェクトベースの表現を導入する。
これは、グローバル遷移力学を局所遷移関数の和として表現することで達成される。
実験により, 様々なセットアップにおいて, サンプル効率が達成できることが示された。
論文 参考訳(メタデータ) (2021-08-20T01:20:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。