Fugu-MT 論文翻訳(概要): SAGE: Bridging Semantic and Actionable Parts for GEneralizable Articulated-Object Manipulation under Language Instructions

論文の概要: SAGE: Bridging Semantic and Actionable Parts for GEneralizable Articulated-Object Manipulation under Language Instructions

arxiv url: http://arxiv.org/abs/2312.01307v1
Date: Sun, 3 Dec 2023 07:22:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 18:09:34.525181
Title: SAGE: Bridging Semantic and Actionable Parts for GEneralizable Articulated-Object Manipulation under Language Instructions
Title（参考訳）: SAGE:言語指導下でのGEneralizable Articulated-Object操作のための意味的および行動的部品のブリッジ
Authors: Haoran Geng, Songlin Wei, Congyue Deng, Bokui Shen, He Wang, Leonidas Guibas
Abstract要約: SAGEは、言語命令の下で汎用的な操作を実現するために、音声で表現されたオブジェクトの意味的および動作可能な部分の理解を橋渡しするフレームワークである。我々のフレームワークは多種多様な言語で指示された目的を持った多種多様なオブジェクトを扱えることを示す。また,現実的なシナリオにおける言語誘導音声オブジェクト操作のための新しいベンチマークも提供する。
参考スコア（独自算出の注目度）: 10.066859360077716
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generalizable manipulation of articulated objects remains a challenging problem in many real-world scenarios, given the diverse object structures, functionalities, and goals. In these tasks, both semantic interpretations and physical plausibilities are crucial for a policy to succeed. To address this problem, we propose SAGE, a novel framework that bridges the understanding of semantic and actionable parts of articulated objects to achieve generalizable manipulation under language instructions. Given a manipulation goal specified by natural language, an instruction interpreter with Large Language Models (LLMs) first translates them into programmatic actions on the object's semantic parts. This process also involves a scene context parser for understanding the visual inputs, which is designed to generate scene descriptions with both rich information and accurate interaction-related facts by joining the forces of generalist Visual-Language Models (VLMs) and domain-specialist part perception models. To further convert the action programs into executable policies, a part grounding module then maps the object semantic parts suggested by the instruction interpreter into so-called Generalizable Actionable Parts (GAParts). Finally, an interactive feedback module is incorporated to respond to failures, which greatly increases the robustness of the overall framework. Experiments both in simulation environments and on real robots show that our framework can handle a large variety of articulated objects with diverse language-instructed goals. We also provide a new benchmark for language-guided articulated-object manipulation in realistic scenarios.
Abstract（参考訳）: 多くの現実のシナリオにおいて、多種多様なオブジェクト構造、機能、目標を考えると、音声オブジェクトの一般化可能な操作は難しい問題である。これらのタスクでは、意味的解釈と物理的多義性の両方が、ポリシーが成功するには不可欠である。そこで本研究では,言語命令下での汎用的な操作を実現するために,意味的および動作可能なオブジェクトの理解を橋渡しする新しいフレームワークであるSAGEを提案する。自然言語で指定された操作目標が与えられたとき、Large Language Models (LLM) を用いた命令インタプリタは、まずオブジェクトのセマンティック部分のプログラムアクションに変換する。このプロセスには、視覚入力を理解するシーンコンテキストパーサも含まれている。これは、ジェネラリストビジュアル言語モデル(vlms)とドメイン特化部分知覚モデルの力を結合することにより、リッチな情報と正確なインタラクション関連の事実の両方を含むシーン記述を生成するように設計されている。さらにアクションプログラムを実行可能なポリシーに変換するために、命令インタプリタによって提案されるオブジェクトの意味部分を、Generalizable Actionable Parts (GAParts) と呼ばれるものにマッピングする。最後に、インタラクティブなフィードバックモジュールが障害に対応するために組み込まれ、フレームワーク全体の堅牢性を大幅に向上させる。シミュレーション環境と実ロボットの両方の実験により、我々のフレームワークは多様な言語で指示された目的を持った多種多様な音声オブジェクトを扱えることを示した。また,現実シナリオにおける言語誘導型言語オブジェクト操作の新しいベンチマークも提供する。

関連論文リスト

CodeDiffuser: Attention-Enhanced Diffusion Policy via VLM-Generated Code for Instruction Ambiguity [23.77040677368575]
我々は,潜在的にあいまいな自然言語によって指定されたタスクを達成できる,新しいロボット操作フレームワークを導入する。このフレームワークはVLM(Vision-Language Model)を使用して、自然言語命令の抽象概念を解釈する。本稿では,言語あいまいさ,コンタクトリッチな操作,多目的インタラクションといった課題に対して,アプローチが優れていることを示す。
論文参考訳（メタデータ） (2025-06-19T23:42:03Z)
Learning Compositional Behaviors from Demonstration and Language [28.352574199884852]
BLADEは、模倣学習とモデルベースの計画を統合することで、長距離ロボット操作のためのフレームワークである。我々は、新しい初期状態、外部の摂動、新しい目標など、新しい状況に一般化する上で重要な能力を示す。
論文参考訳（メタデータ） (2025-05-28T05:19:59Z)
IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文参考訳（メタデータ） (2025-04-09T12:36:48Z)
EigenActor: Variant Body-Object Interaction Generation Evolved from Invariant Action Basis Reasoning [66.68366281305977]
本稿では,テキストベースの命令から3次元オブジェクト間相互作用(HOI)を推定するクロスモーダル合成タスクについて検討する。既存のテキスト対HOI合成法は主に、テキストからオブジェクト固有の3D体の動きへの直接マッピングをデプロイする。本稿では,テキスト・ツー・ホイタスクのための新しいボディーポーズ生成戦略を提案する。
論文参考訳（メタデータ） (2025-03-01T07:15:10Z)
Composable Part-Based Manipulation [61.48634521323737]
本稿では,ロボット操作スキルの学習と一般化を改善するために,構成可能な部品ベース操作(CPM)を提案する。 CPMは構成可能な拡散モデルの集合で構成され、各モデルは異なるオブジェクト間の対応をキャプチャする。シミュレーションおよび実世界のシナリオにおいて、我々のアプローチを検証し、ロバストかつ一般化された操作能力を達成する上での有効性を実証する。
論文参考訳（メタデータ） (2024-05-09T16:04:14Z)
Programmatically Grounded, Compositionally Generalizable Robotic Manipulation [35.12811184353626]
意味表現を統合化するための従来の事前学習ファインタニングパイプラインは、ドメイン固有の行動情報の学習に絡み合っていることを示す。本稿では,言語命令の統語的構造と意味的構造を利用して,事前学習モデルを活用するモジュール方式を提案する。我々のモデルは、様々な操作行動において、ゼロショットと合成の一般化を改善するために、動作と知覚をうまく切り離すことに成功している。
論文参考訳（メタデータ） (2023-04-26T20:56:40Z)
Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。 1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文参考訳（メタデータ） (2022-12-27T09:13:19Z)
Part-aware Prototypical Graph Network for One-shot Skeleton-based Action Recognition [57.86960990337986]
ワンショットスケルトンに基づくアクション認識は、ベースクラスから新しいクラスへの変換可能な表現を学習する上で、ユニークな課題となる。単発骨格に基づく行動認識のためのパートアウェアなプロトタイプ表現を提案する。本手法の有効性を2つの公開骨格に基づく行動認識データセットに示す。
論文参考訳（メタデータ） (2022-08-19T04:54:56Z)
Identifying concept libraries from language about object structure [56.83719358616503]
自然言語記述を2Kプロシージャ生成オブジェクトの多種多様なセットに利用して,ユーザが使用する部分を特定する。我々は、異なる部分概念を含むプログラムライブラリの空間の探索として、この問題を形式化する。自然言語と構造化されたプログラム表現を組み合わせることで、人々が名前をつける部分概念を規定する基本的な情報理論的なトレードオフを発見する。
論文参考訳（メタデータ） (2022-05-11T17:49:25Z)
Phrase-Based Affordance Detection via Cyclic Bilateral Interaction [17.022853987801877]
我々は、視覚言語の観点から、手当を知覚し、困難なフレーズベースの手当検出問題を考察する。言語と視覚の特徴を段階的に整合させるために,循環的二元整合性向上ネットワーク(CBCE-Net)を提案する。具体的には、CBCE-Netは、視覚と言語の共通した特徴を進歩的に更新する相互指導型視覚言語モジュールと、循環的に物体との相互作用の認識を容易にする循環的相互作用モジュール(CIM)から構成される。
論文参考訳（メタデータ） (2022-02-24T13:02:27Z)
INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文参考訳（メタデータ） (2021-08-25T07:35:21Z)
Act the Part: Learning Interaction Strategies for Articulated Object Part Discovery [18.331607910407183]
act the part (atp) を導入して,関節のあるオブジェクトと対話し,それらのピースを発見・分割する方法を学習する。私たちの実験では、AtPは部分発見のための効率的な戦略を学び、見えないカテゴリに一般化することができ、タスクの条件付き推論が可能です。
論文参考訳（メタデータ） (2021-05-03T17:48:29Z)
Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文参考訳（メタデータ） (2020-10-01T16:02:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。