論文の概要: Adaptive Articulated Object Manipulation On The Fly with Foundation Model Reasoning and Part Grounding
- arxiv url: http://arxiv.org/abs/2507.18276v1
- Date: Thu, 24 Jul 2025 10:25:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.414353
- Title: Adaptive Articulated Object Manipulation On The Fly with Foundation Model Reasoning and Part Grounding
- Title(参考訳): 基礎モデル推論と部分接地によるアダプティブArticulated Object Manipulation on the Fly
- Authors: Xiaojie Zhang, Yuanfei Wang, Ruihai Wu, Kunqi Xu, Yu Li, Liuyu Xiang, Hao Dong, Zhaofeng He,
- Abstract要約: アーティキュレートされたオブジェクトは、さまざまな操作課題をロボットにもたらす。
内部構造は直接観測できないため、ロボットは操作軌道を生成するために適応的に動作を探索し、洗練する必要がある。
AdaRPGは、基礎モデルを利用してオブジェクトを抽出する新しいフレームワークで、オブジェクト全体よりも局所的な幾何学的類似性を示す。
- 参考スコア(独自算出の注目度): 18.52792284421002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Articulated objects pose diverse manipulation challenges for robots. Since their internal structures are not directly observable, robots must adaptively explore and refine actions to generate successful manipulation trajectories. While existing works have attempted cross-category generalization in adaptive articulated object manipulation, two major challenges persist: (1) the geometric diversity of real-world articulated objects complicates visual perception and understanding, and (2) variations in object functions and mechanisms hinder the development of a unified adaptive manipulation strategy. To address these challenges, we propose AdaRPG, a novel framework that leverages foundation models to extract object parts, which exhibit greater local geometric similarity than entire objects, thereby enhancing visual affordance generalization for functional primitive skills. To support this, we construct a part-level affordance annotation dataset to train the affordance model. Additionally, AdaRPG utilizes the common knowledge embedded in foundation models to reason about complex mechanisms and generate high-level control codes that invoke primitive skill functions based on part affordance inference. Simulation and real-world experiments demonstrate AdaRPG's strong generalization ability across novel articulated object categories.
- Abstract(参考訳): アーティキュレートされたオブジェクトは、さまざまな操作課題をロボットにもたらす。
内部構造は直接観測できないため、ロボットは操作軌道を生成するために適応的に動作を探索し、洗練する必要がある。
既存の研究は、適応的調音オブジェクト操作におけるカテゴリ間一般化を試みてきたが、(1)現実世界の調音オブジェクトの幾何学的多様性は視覚的知覚と理解を複雑にし、(2)適応的操作戦略の開発を妨げる物体機能や機構のバリエーションである。
これらの課題に対処するために,AdaRPGを提案する。AdaRPGは,基礎モデルを利用してオブジェクトを抽出し,オブジェクト全体よりも局所的な幾何学的類似性を示す新しいフレームワークであり,機能的プリミティブスキルの視覚的アベイランスの一般化を向上する。
これを支援するために,パートレベルのアベイランスアノテーションデータセットを構築し,アベイランスモデルをトレーニングする。
さらに、AdaRPGはファンデーションモデルに埋め込まれた共通知識を利用して、複雑なメカニズムを推論し、部品価格推定に基づいてプリミティブスキル機能を呼び出す高レベルな制御コードを生成する。
シミュレーションと実世界の実験は、AdaRPGが新規な調音対象カテゴリーにまたがる強力な一般化能力を実証している。
関連論文リスト
- Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation [90.90219129619344]
本稿では,スパイキング機能を備えたR-prior-S, Recurrent Geometric-priormodal Policyを提案する。
物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを利用する。
ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
論文 参考訳(メタデータ) (2026-01-13T23:36:30Z) - Do-Undo: Generating and Reversing Physical Actions in Vision-Language Models [57.71440995598757]
我々は,視覚言語モデルにおける重要なギャップに対処するために,Do-Undoタスクとベンチマークを導入する。
Do-Undoは、物理的な行動の結果をシミュレートし、それを正確に反転させるモデルを必要とし、視覚の世界における真の原因と効果を反映している。
論文 参考訳(メタデータ) (2025-12-15T18:03:42Z) - Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects [59.51185639557874]
本稿では,任意のRGB画像やテキスト記述から直接音声オブジェクトを合成するフレームワークであるKinematifyを紹介する。
提案手法は, 高DoFオブジェクトに対する運動的トポロジの推測と静的幾何からの関節パラメータの推定という2つの課題に対処する。
論文 参考訳(メタデータ) (2025-11-03T07:21:42Z) - FUNCanon: Learning Pose-Aware Action Primitives via Functional Object Canonicalization for Generalizable Robotic Manipulation [25.631729484747087]
我々は、長い水平操作タスクをアクションチャンクのシーケンスに変換するフレームワークであるFunCanonを紹介した。
これらのチャンクは、独立したタスクではなく、アクション自体にポリシー学習を重点を置いています。
シミュレーションおよび実世界のベンチマークの実験では、カテゴリレベルの一般化、クロスタスクの振る舞いの再利用、堅牢なsim2realデプロイメントが示されている。
論文 参考訳(メタデータ) (2025-09-23T14:49:05Z) - O$^3$Afford: One-Shot 3D Object-to-Object Affordance Grounding for Generalizable Robotic Manipulation [8.1159855043566]
我々は,限られたデータ制約下でのオブジェクト・ツー・オブジェクト・アベイランス・グラウンドディングの課題に対処する。
近年の2次元視覚基礎モデルによる数ショット学習の進歩に触発され,ロボット操作のための1Dオブジェクト・オブジェクト・アベイランス・ラーニング・アプローチを提案する。
3Dオブジェクト・ツー・オブジェクト・アベイランス・グラウンドとロボット操作による実験により,O$3$Affordは,精度と一般化能力の両面で,既存のベースラインを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-09-07T22:45:06Z) - Is an object-centric representation beneficial for robotic manipulation ? [45.75998994869714]
オブジェクト中心表現(OCR)は近年,画像やビデオの構造的表現の学習において,コンピュータビジョンコミュニティにおける関心の対象となっている。
複数の一般化シナリオにまたがって1つの古典的対象中心法を評価し、その結果をいくつかの最先端のホリスティック表現と比較する。
以上の結果から,既存の手法は複雑なシーン構造を含む難解なシナリオでは失敗しがちであるが,オブジェクト指向手法はこれらの課題を克服するのに役立つことがわかった。
論文 参考訳(メタデータ) (2025-06-24T08:23:55Z) - Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - ArtGS: Building Interactable Replicas of Complex Articulated Objects via Gaussian Splatting [66.29782808719301]
コンピュータビジョンにおいて、音声で表現されたオブジェクトを構築することが重要な課題である。
既存のメソッドは、しばしば異なるオブジェクト状態間で効果的に情報を統合できない。
3次元ガウスを柔軟かつ効率的な表現として活用する新しいアプローチであるArtGSを紹介する。
論文 参考訳(メタデータ) (2025-02-26T10:25:32Z) - AdaManip: Adaptive Articulated Object Manipulation Environments and Policy Learning [25.331956706253614]
人工物体操作は、ロボットが現実世界のシナリオで様々なタスクを遂行する上で重要な機能である。
音声オブジェクトの以前のデータセットとシミュレーション環境は、主に単純な操作機構に焦点を合わせてきた。
そこで我々は,新しいオブジェクト操作環境を構築し,それを9つのカテゴリのオブジェクトに装備する。
環境とオブジェクトに基づいて,適応的な実演コレクションと3次元視覚拡散に基づく模倣学習パイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-16T13:45:10Z) - GAPartManip: A Large-scale Part-centric Dataset for Material-Agnostic Articulated Object Manipulation [11.880519765681408]
本稿では,音声操作のための大規模部分中心データセットを提案する。
写真リアリスティックな素材のランダム化と、パート指向でシーンレベルのアクション可能なインタラクションポーズの詳細なアノテーションが特徴である。
一般化可能なオブジェクト操作のための,優れた,堅牢な性能を実現する,新しいモジュラーフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-27T12:11:23Z) - Kinematic-aware Prompting for Generalizable Articulated Object
Manipulation with LLMs [53.66070434419739]
汎用的なオブジェクト操作は、ホームアシストロボットにとって不可欠である。
本稿では,物体のキネマティックな知識を持つ大規模言語モデルに対して,低レベル動作経路を生成するキネマティック・アウェア・プロンプト・フレームワークを提案する。
我々のフレームワークは8つのカテゴリで従来の手法よりも優れており、8つの未確認対象カテゴリに対して強力なゼロショット能力を示している。
論文 参考訳(メタデータ) (2023-11-06T03:26:41Z) - GAMMA: Generalizable Articulation Modeling and Manipulation for
Articulated Objects [53.965581080954905]
本稿では,GAMMA(Generalizable Articulation Modeling and Manipulating for Articulated Objects)の新たな枠組みを提案する。
GAMMAは,異なるカテゴリーの多種多様な調音オブジェクトから,調音モデルと手取りポーズの相違を学習する。
その結果, GAMMA はSOTA の調音モデルおよび操作アルゴリズムを, 目に見えない, 横断的な調音オブジェクトで著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-28T08:57:14Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。