論文の概要: SAGE: Bridging Semantic and Actionable Parts for GEneralizable
Articulated-Object Manipulation under Language Instructions
- arxiv url: http://arxiv.org/abs/2312.01307v1
- Date: Sun, 3 Dec 2023 07:22:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 18:09:34.525181
- Title: SAGE: Bridging Semantic and Actionable Parts for GEneralizable
Articulated-Object Manipulation under Language Instructions
- Title(参考訳): SAGE:言語指導下でのGEneralizable Articulated-Object操作のための意味的および行動的部品のブリッジ
- Authors: Haoran Geng, Songlin Wei, Congyue Deng, Bokui Shen, He Wang, Leonidas
Guibas
- Abstract要約: SAGEは、言語命令の下で汎用的な操作を実現するために、音声で表現されたオブジェクトの意味的および動作可能な部分の理解を橋渡しするフレームワークである。
我々のフレームワークは多種多様な言語で指示された目的を持った多種多様なオブジェクトを扱えることを示す。
また,現実的なシナリオにおける言語誘導音声オブジェクト操作のための新しいベンチマークも提供する。
- 参考スコア(独自算出の注目度): 10.066859360077716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalizable manipulation of articulated objects remains a challenging
problem in many real-world scenarios, given the diverse object structures,
functionalities, and goals. In these tasks, both semantic interpretations and
physical plausibilities are crucial for a policy to succeed. To address this
problem, we propose SAGE, a novel framework that bridges the understanding of
semantic and actionable parts of articulated objects to achieve generalizable
manipulation under language instructions. Given a manipulation goal specified
by natural language, an instruction interpreter with Large Language Models
(LLMs) first translates them into programmatic actions on the object's semantic
parts. This process also involves a scene context parser for understanding the
visual inputs, which is designed to generate scene descriptions with both rich
information and accurate interaction-related facts by joining the forces of
generalist Visual-Language Models (VLMs) and domain-specialist part perception
models. To further convert the action programs into executable policies, a part
grounding module then maps the object semantic parts suggested by the
instruction interpreter into so-called Generalizable Actionable Parts
(GAParts). Finally, an interactive feedback module is incorporated to respond
to failures, which greatly increases the robustness of the overall framework.
Experiments both in simulation environments and on real robots show that our
framework can handle a large variety of articulated objects with diverse
language-instructed goals. We also provide a new benchmark for language-guided
articulated-object manipulation in realistic scenarios.
- Abstract(参考訳): 多くの現実のシナリオにおいて、多種多様なオブジェクト構造、機能、目標を考えると、音声オブジェクトの一般化可能な操作は難しい問題である。
これらのタスクでは、意味的解釈と物理的多義性の両方が、ポリシーが成功するには不可欠である。
そこで本研究では,言語命令下での汎用的な操作を実現するために,意味的および動作可能なオブジェクトの理解を橋渡しする新しいフレームワークであるSAGEを提案する。
自然言語で指定された操作目標が与えられたとき、Large Language Models (LLM) を用いた命令インタプリタは、まずオブジェクトのセマンティック部分のプログラムアクションに変換する。
このプロセスには、視覚入力を理解するシーンコンテキストパーサも含まれている。これは、ジェネラリストビジュアル言語モデル(vlms)とドメイン特化部分知覚モデルの力を結合することにより、リッチな情報と正確なインタラクション関連の事実の両方を含むシーン記述を生成するように設計されている。
さらにアクションプログラムを実行可能なポリシーに変換するために、命令インタプリタによって提案されるオブジェクトの意味部分を、Generalizable Actionable Parts (GAParts) と呼ばれるものにマッピングする。
最後に、インタラクティブなフィードバックモジュールが障害に対応するために組み込まれ、フレームワーク全体の堅牢性を大幅に向上させる。
シミュレーション環境と実ロボットの両方の実験により、我々のフレームワークは多様な言語で指示された目的を持った多種多様な音声オブジェクトを扱えることを示した。
また,現実シナリオにおける言語誘導型言語オブジェクト操作の新しいベンチマークも提供する。
関連論文リスト
- Composable Part-Based Manipulation [61.48634521323737]
本稿では,ロボット操作スキルの学習と一般化を改善するために,構成可能な部品ベース操作(CPM)を提案する。
CPMは構成可能な拡散モデルの集合で構成され、各モデルは異なるオブジェクト間の対応をキャプチャする。
シミュレーションおよび実世界のシナリオにおいて、我々のアプローチを検証し、ロバストかつ一般化された操作能力を達成する上での有効性を実証する。
論文 参考訳(メタデータ) (2024-05-09T16:04:14Z) - Programmatically Grounded, Compositionally Generalizable Robotic
Manipulation [35.12811184353626]
意味表現を統合化するための従来の事前学習ファインタニングパイプラインは、ドメイン固有の行動情報の学習に絡み合っていることを示す。
本稿では,言語命令の統語的構造と意味的構造を利用して,事前学習モデルを活用するモジュール方式を提案する。
我々のモデルは、様々な操作行動において、ゼロショットと合成の一般化を改善するために、動作と知覚をうまく切り離すことに成功している。
論文 参考訳(メタデータ) (2023-04-26T20:56:40Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Part-aware Prototypical Graph Network for One-shot Skeleton-based Action
Recognition [57.86960990337986]
ワンショットスケルトンに基づくアクション認識は、ベースクラスから新しいクラスへの変換可能な表現を学習する上で、ユニークな課題となる。
単発骨格に基づく行動認識のためのパートアウェアなプロトタイプ表現を提案する。
本手法の有効性を2つの公開骨格に基づく行動認識データセットに示す。
論文 参考訳(メタデータ) (2022-08-19T04:54:56Z) - Identifying concept libraries from language about object structure [56.83719358616503]
自然言語記述を2Kプロシージャ生成オブジェクトの多種多様なセットに利用して,ユーザが使用する部分を特定する。
我々は、異なる部分概念を含むプログラムライブラリの空間の探索として、この問題を形式化する。
自然言語と構造化されたプログラム表現を組み合わせることで、人々が名前をつける部分概念を規定する基本的な情報理論的なトレードオフを発見する。
論文 参考訳(メタデータ) (2022-05-11T17:49:25Z) - Phrase-Based Affordance Detection via Cyclic Bilateral Interaction [17.022853987801877]
我々は、視覚言語の観点から、手当を知覚し、困難なフレーズベースの手当検出問題を考察する。
言語と視覚の特徴を段階的に整合させるために,循環的二元整合性向上ネットワーク(CBCE-Net)を提案する。
具体的には、CBCE-Netは、視覚と言語の共通した特徴を進歩的に更新する相互指導型視覚言語モジュールと、循環的に物体との相互作用の認識を容易にする循環的相互作用モジュール(CIM)から構成される。
論文 参考訳(メタデータ) (2022-02-24T13:02:27Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Act the Part: Learning Interaction Strategies for Articulated Object
Part Discovery [18.331607910407183]
act the part (atp) を導入して,関節のあるオブジェクトと対話し,それらのピースを発見・分割する方法を学習する。
私たちの実験では、AtPは部分発見のための効率的な戦略を学び、見えないカテゴリに一般化することができ、タスクの条件付き推論が可能です。
論文 参考訳(メタデータ) (2021-05-03T17:48:29Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。