論文の概要: SAGE: Bridging Semantic and Actionable Parts for GEneralizable
Articulated-Object Manipulation under Language Instructions
- arxiv url: http://arxiv.org/abs/2312.01307v1
- Date: Sun, 3 Dec 2023 07:22:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 18:09:34.525181
- Title: SAGE: Bridging Semantic and Actionable Parts for GEneralizable
Articulated-Object Manipulation under Language Instructions
- Title(参考訳): SAGE:言語指導下でのGEneralizable Articulated-Object操作のための意味的および行動的部品のブリッジ
- Authors: Haoran Geng, Songlin Wei, Congyue Deng, Bokui Shen, He Wang, Leonidas
Guibas
- Abstract要約: SAGEは、言語命令の下で汎用的な操作を実現するために、音声で表現されたオブジェクトの意味的および動作可能な部分の理解を橋渡しするフレームワークである。
我々のフレームワークは多種多様な言語で指示された目的を持った多種多様なオブジェクトを扱えることを示す。
また,現実的なシナリオにおける言語誘導音声オブジェクト操作のための新しいベンチマークも提供する。
- 参考スコア(独自算出の注目度): 10.066859360077716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalizable manipulation of articulated objects remains a challenging
problem in many real-world scenarios, given the diverse object structures,
functionalities, and goals. In these tasks, both semantic interpretations and
physical plausibilities are crucial for a policy to succeed. To address this
problem, we propose SAGE, a novel framework that bridges the understanding of
semantic and actionable parts of articulated objects to achieve generalizable
manipulation under language instructions. Given a manipulation goal specified
by natural language, an instruction interpreter with Large Language Models
(LLMs) first translates them into programmatic actions on the object's semantic
parts. This process also involves a scene context parser for understanding the
visual inputs, which is designed to generate scene descriptions with both rich
information and accurate interaction-related facts by joining the forces of
generalist Visual-Language Models (VLMs) and domain-specialist part perception
models. To further convert the action programs into executable policies, a part
grounding module then maps the object semantic parts suggested by the
instruction interpreter into so-called Generalizable Actionable Parts
(GAParts). Finally, an interactive feedback module is incorporated to respond
to failures, which greatly increases the robustness of the overall framework.
Experiments both in simulation environments and on real robots show that our
framework can handle a large variety of articulated objects with diverse
language-instructed goals. We also provide a new benchmark for language-guided
articulated-object manipulation in realistic scenarios.
- Abstract(参考訳): 多くの現実のシナリオにおいて、多種多様なオブジェクト構造、機能、目標を考えると、音声オブジェクトの一般化可能な操作は難しい問題である。
これらのタスクでは、意味的解釈と物理的多義性の両方が、ポリシーが成功するには不可欠である。
そこで本研究では,言語命令下での汎用的な操作を実現するために,意味的および動作可能なオブジェクトの理解を橋渡しする新しいフレームワークであるSAGEを提案する。
自然言語で指定された操作目標が与えられたとき、Large Language Models (LLM) を用いた命令インタプリタは、まずオブジェクトのセマンティック部分のプログラムアクションに変換する。
このプロセスには、視覚入力を理解するシーンコンテキストパーサも含まれている。これは、ジェネラリストビジュアル言語モデル(vlms)とドメイン特化部分知覚モデルの力を結合することにより、リッチな情報と正確なインタラクション関連の事実の両方を含むシーン記述を生成するように設計されている。
さらにアクションプログラムを実行可能なポリシーに変換するために、命令インタプリタによって提案されるオブジェクトの意味部分を、Generalizable Actionable Parts (GAParts) と呼ばれるものにマッピングする。
最後に、インタラクティブなフィードバックモジュールが障害に対応するために組み込まれ、フレームワーク全体の堅牢性を大幅に向上させる。
シミュレーション環境と実ロボットの両方の実験により、我々のフレームワークは多様な言語で指示された目的を持った多種多様な音声オブジェクトを扱えることを示した。
また,現実シナリオにおける言語誘導型言語オブジェクト操作の新しいベンチマークも提供する。
関連論文リスト
- Learning with Language-Guided State Abstractions [58.199148890064826]
高次元観測空間における一般化可能なポリシー学習は、よく設計された状態表現によって促進される。
我々の手法であるLGAは、自然言語の監視と言語モデルからの背景知識を組み合わせて、目に見えないタスクに適した状態表現を自動構築する。
シミュレーションされたロボットタスクの実験では、LGAは人間によって設計されたものと同様の状態抽象化をもたらすが、そのほんの少しの時間で得られる。
論文 参考訳(メタデータ) (2024-02-28T23:57:04Z) - Object-Centric Instruction Augmentation for Robotic Manipulation [29.491990994901666]
我々は,高度にセマンティックで情報に富んだ言語命令を位置情報で拡張するために,textitObject-Centric Instruction Augmentation (OCI)フレームワークを導入する。
MLLM(Multi-modal Large Language Model)を用いて,オブジェクト位置の知識を自然言語に織り込む。
我々は,ロボットマニピュレータの模倣政策が,従来の言語指導にのみ依存する者よりも優れていることを実証した。
論文 参考訳(メタデータ) (2024-01-05T13:54:45Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - Energy-based Models are Zero-Shot Planners for Compositional Scene
Rearrangement [19.494104738436892]
このフレームワークは,シミュレーションや実世界において,ゼロショットで合成命令を実行できることを示す。
言語から反応する反応ポリシーや大規模言語モデルよりも、特に複数の概念の合成を含む長い命令において、大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-04-27T17:55:13Z) - Programmatically Grounded, Compositionally Generalizable Robotic
Manipulation [35.12811184353626]
意味表現を統合化するための従来の事前学習ファインタニングパイプラインは、ドメイン固有の行動情報の学習に絡み合っていることを示す。
本稿では,言語命令の統語的構造と意味的構造を利用して,事前学習モデルを活用するモジュール方式を提案する。
我々のモデルは、様々な操作行動において、ゼロショットと合成の一般化を改善するために、動作と知覚をうまく切り離すことに成功している。
論文 参考訳(メタデータ) (2023-04-26T20:56:40Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - VLMbench: A Compositional Benchmark for Vision-and-Language Manipulation [11.92150014766458]
我々は、人間の指示に従ってオブジェクト操作を行う、最後の1マイルのエンボディエージェントの空白を埋めることを目指している。
我々は、視覚・言語操作ベンチマーク(VLMbench)を構築し、分類されたロボット操作タスクに関する様々な言語命令を含む。
モジュラールールベースのタスクテンプレートが作成され、言語命令でロボットのデモを自動的に生成する。
論文 参考訳(メタデータ) (2022-06-17T03:07:18Z) - Identifying concept libraries from language about object structure [56.83719358616503]
自然言語記述を2Kプロシージャ生成オブジェクトの多種多様なセットに利用して,ユーザが使用する部分を特定する。
我々は、異なる部分概念を含むプログラムライブラリの空間の探索として、この問題を形式化する。
自然言語と構造化されたプログラム表現を組み合わせることで、人々が名前をつける部分概念を規定する基本的な情報理論的なトレードオフを発見する。
論文 参考訳(メタデータ) (2022-05-11T17:49:25Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。