論文の概要: SAGE: Bridging Semantic and Actionable Parts for GEneralizable Manipulation of Articulated Objects
- arxiv url: http://arxiv.org/abs/2312.01307v2
- Date: Sat, 30 Mar 2024 10:46:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 14:55:32.049268
- Title: SAGE: Bridging Semantic and Actionable Parts for GEneralizable Manipulation of Articulated Objects
- Title(参考訳): SAGE:Articulated ObjectsのGEneralizable Manipulationのためのセマンティックおよび動作可能な部品のブリッジ
- Authors: Haoran Geng, Songlin Wei, Congyue Deng, Bokui Shen, He Wang, Leonidas Guibas,
- Abstract要約: 本稿では,自然言語命令下での汎用的な操作を実現するために,意味的および動作可能なオブジェクトをブリッジする新しいフレームワークを提案する。
パーシャルグラウンドモジュールは、セマンティックな部分を「ジェネリザブル・アクティブル・パート(GAParts)」と表現し、パートモーションに関する情報を本質的に保持する。
インタラクティブなフィードバックモジュールが障害に対応するために組み込まれており、ループを閉じ、全体的なフレームワークの堅牢性を高める。
- 参考スコア(独自算出の注目度): 9.500480417077272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To interact with daily-life articulated objects of diverse structures and functionalities, understanding the object parts plays a central role in both user instruction comprehension and task execution. However, the possible discordance between the semantic meaning and physics functionalities of the parts poses a challenge for designing a general system. To address this problem, we propose SAGE, a novel framework that bridges semantic and actionable parts of articulated objects to achieve generalizable manipulation under natural language instructions. More concretely, given an articulated object, we first observe all the semantic parts on it, conditioned on which an instruction interpreter proposes possible action programs that concretize the natural language instruction. Then, a part-grounding module maps the semantic parts into so-called Generalizable Actionable Parts (GAParts), which inherently carry information about part motion. End-effector trajectories are predicted on the GAParts, which, together with the action program, form an executable policy. Additionally, an interactive feedback module is incorporated to respond to failures, which closes the loop and increases the robustness of the overall framework. Key to the success of our framework is the joint proposal and knowledge fusion between a large vision-language model (VLM) and a small domain-specific model for both context comprehension and part perception, with the former providing general intuitions and the latter serving as expert facts. Both simulation and real-robot experiments show our effectiveness in handling a large variety of articulated objects with diverse language-instructed goals.
- Abstract(参考訳): 多様な構造や機能を持つ日常的な明瞭なオブジェクトと対話し、ユーザ命令理解とタスク実行の両方において、オブジェクト部品の理解が中心的な役割を果たす。
しかしながら、部品の意味と物理機能との間の不一致は、一般的なシステムを設計する上での課題である。
この問題に対処するために,自然言語命令下での汎用的な操作を実現するために,音声オブジェクトの意味的および動作可能な部分を橋渡しする新しいフレームワークであるSAGEを提案する。
より具体的には、記述されたオブジェクトが与えられた場合、まず、命令インタプリタが自然言語命令を拡張可能なアクションプログラムを提案する条件付きで、その上のすべての意味部分を観察する。
次に、部分接地モジュールは、セマンティック部分を、本来は部分運動に関する情報を運ぶ、いわゆるGeneralizable Actionable Parts (GAParts)にマッピングする。
エンドエフェクタの軌道はGAParts上で予測され、アクションプログラムとともに実行可能なポリシーを形成する。
さらに、インタラクティブなフィードバックモジュールが障害に対応するために組み込まれており、ループを閉じ、全体的なフレームワークの堅牢性を高める。
我々のフレームワークの成功の鍵は、大きな視覚言語モデル(VLM)とコンテキスト理解と部分認識の両方のための小さなドメイン固有モデルとの合同提案と知識融合であり、前者は一般的な直観を提供し、後者は専門的な事実として機能する。
シミュレーションと実ロボット実験の両方で、多種多様な言語に指示された目的を持つ多種多様な音声オブジェクトの処理の有効性が示されている。
関連論文リスト
- Composable Part-Based Manipulation [61.48634521323737]
本稿では,ロボット操作スキルの学習と一般化を改善するために,構成可能な部品ベース操作(CPM)を提案する。
CPMは構成可能な拡散モデルの集合で構成され、各モデルは異なるオブジェクト間の対応をキャプチャする。
シミュレーションおよび実世界のシナリオにおいて、我々のアプローチを検証し、ロバストかつ一般化された操作能力を達成する上での有効性を実証する。
論文 参考訳(メタデータ) (2024-05-09T16:04:14Z) - Programmatically Grounded, Compositionally Generalizable Robotic
Manipulation [35.12811184353626]
意味表現を統合化するための従来の事前学習ファインタニングパイプラインは、ドメイン固有の行動情報の学習に絡み合っていることを示す。
本稿では,言語命令の統語的構造と意味的構造を利用して,事前学習モデルを活用するモジュール方式を提案する。
我々のモデルは、様々な操作行動において、ゼロショットと合成の一般化を改善するために、動作と知覚をうまく切り離すことに成功している。
論文 参考訳(メタデータ) (2023-04-26T20:56:40Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Part-aware Prototypical Graph Network for One-shot Skeleton-based Action
Recognition [57.86960990337986]
ワンショットスケルトンに基づくアクション認識は、ベースクラスから新しいクラスへの変換可能な表現を学習する上で、ユニークな課題となる。
単発骨格に基づく行動認識のためのパートアウェアなプロトタイプ表現を提案する。
本手法の有効性を2つの公開骨格に基づく行動認識データセットに示す。
論文 参考訳(メタデータ) (2022-08-19T04:54:56Z) - Identifying concept libraries from language about object structure [56.83719358616503]
自然言語記述を2Kプロシージャ生成オブジェクトの多種多様なセットに利用して,ユーザが使用する部分を特定する。
我々は、異なる部分概念を含むプログラムライブラリの空間の探索として、この問題を形式化する。
自然言語と構造化されたプログラム表現を組み合わせることで、人々が名前をつける部分概念を規定する基本的な情報理論的なトレードオフを発見する。
論文 参考訳(メタデータ) (2022-05-11T17:49:25Z) - Phrase-Based Affordance Detection via Cyclic Bilateral Interaction [17.022853987801877]
我々は、視覚言語の観点から、手当を知覚し、困難なフレーズベースの手当検出問題を考察する。
言語と視覚の特徴を段階的に整合させるために,循環的二元整合性向上ネットワーク(CBCE-Net)を提案する。
具体的には、CBCE-Netは、視覚と言語の共通した特徴を進歩的に更新する相互指導型視覚言語モジュールと、循環的に物体との相互作用の認識を容易にする循環的相互作用モジュール(CIM)から構成される。
論文 参考訳(メタデータ) (2022-02-24T13:02:27Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Act the Part: Learning Interaction Strategies for Articulated Object
Part Discovery [18.331607910407183]
act the part (atp) を導入して,関節のあるオブジェクトと対話し,それらのピースを発見・分割する方法を学習する。
私たちの実験では、AtPは部分発見のための効率的な戦略を学び、見えないカテゴリに一般化することができ、タスクの条件付き推論が可能です。
論文 参考訳(メタデータ) (2021-05-03T17:48:29Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。