論文の概要: A Hybrid Compositional Reasoning Approach for Interactive Robot
Manipulation
- arxiv url: http://arxiv.org/abs/2210.00858v1
- Date: Mon, 3 Oct 2022 12:21:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 17:13:50.380719
- Title: A Hybrid Compositional Reasoning Approach for Interactive Robot
Manipulation
- Title(参考訳): 対話型ロボット操作のためのハイブリッド合成推論手法
- Authors: Georgios Tziafas, Hamidreza Kasaei
- Abstract要約: 本稿では,言語誘導型視覚推論とロボット操作を結合したニューロシンボリック推論モデルを提案する。
非熟練の人間が自然言語を用いてロボットエージェントに指示し、参照表現(REC)、質問(VQA)、つかみ動作指示のいずれかを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we present a neuro-symbolic (hybrid) compositional reasoning
model for coupling language-guided visual reasoning with robot manipulation. A
non-expert human user can prompt the robot agent using natural language,
providing either a referring expression (REC), a question (VQA) or a grasp
action instruction. The model can tackle all cases in a task-agnostic fashion
through the utilization of a shared library of primitive skills. Each primitive
handles an independent sub-task, such as reasoning about visual attributes,
spatial relation comprehension, logic and enumeration, as well as arm control.
A language parser maps the input query to an executable program composed of
such primitives depending on the context. While some primitives are purely
symbolic operations (e.g. counting), others are trainable neural functions
(e.g. grounding words to images), therefore marrying the interpretability and
systematic generalization benefits of discrete symbolic approaches with the
scalability and representational power of deep networks. We generate a
synthetic dataset of tabletop scenes to train our approach and perform several
evaluation experiments for VQA in the synthetic and a real RGB-D dataset.
Results show that the proposed method achieves very high accuracy while being
transferable to novel content with few-shot visual fine-tuning. Finally, we
integrate our method with a robot framework and demonstrate how it can serve as
an interpretable solution for an interactive object picking task, both in
simulation and with a real robot.
- Abstract(参考訳): 本稿では,言語誘導視覚推論とロボット操作を結合するニューロシンボリック(ハイブリッド)合成推論モデルを提案する。
非熟練の人間ユーザーは、自然言語を用いてロボットエージェントを促すことができ、参照表現(rec)、質問(vqa)、または把持動作指示を提供する。
このモデルは、プリミティブスキルの共有ライブラリを利用することで、タスクに依存しない方法ですべてのケースに取り組むことができる。
各プリミティブは、視覚的属性の推論、空間的関係の理解、論理と列挙、アームコントロールなどの独立したサブタスクを処理する。
言語パーサは、入力クエリを、コンテキストに応じて、そのようなプリミティブからなる実行可能なプログラムにマップする。
一部のプリミティブは純粋にシンボリックな操作(カウントなど)であるが、他のプリミティブは訓練可能なニューラル関数(例えば画像への接頭辞)であり、そのためディープ・ネットワークのスケーラビリティと表現力によって離散的シンボリックなアプローチの解釈可能性と体系的な一般化の利点を結合する。
我々は、テーブルトップシーンの合成データセットを作成し、我々のアプローチを訓練し、合成および実RGB-DデータセットにおけるVQAの評価実験を行う。
提案手法は,視覚的微調整の少ない新規コンテンツに転送可能でありながら,極めて高い精度を実現する。
最後に,本手法をロボットフレームワークと統合し,シミュレーションと実ロボットの両方において,対話型物体抽出タスクの解釈可能なソリューションとして機能する方法を実証する。
関連論文リスト
- Context-Aware Command Understanding for Tabletop Scenarios [1.7082212774297747]
本稿では,テーブルトップシナリオにおける自然人コマンドの解釈を目的とした,新しいハイブリッドアルゴリズムを提案する。
音声、ジェスチャー、シーンコンテキストを含む複数の情報ソースを統合することにより、ロボットに対して実行可能な指示を抽出する。
システムの長所と短所、特にマルチモーダルコマンド解釈の扱い方について論じる。
論文 参考訳(メタデータ) (2024-10-08T20:46:39Z) - Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Language-Driven Representation Learning for Robotics [115.93273609767145]
ロボット工学における視覚表現学習の最近の研究は、日々の作業を行う人間の大規模なビデオデータセットから学ぶことの可能性を実証している。
人間のビデオやキャプションから言語による表現学習を行うためのフレームワークを提案する。
我々は、Voltronの言語駆動学習が、特に高レベル制御を必要とするターゲット問題において、先行技術よりも優れていることを発見した。
論文 参考訳(メタデータ) (2023-02-24T17:29:31Z) - Emergence of Machine Language: Towards Symbolic Intelligence with Neural
Networks [73.94290462239061]
本稿では、ニューラルネットワークを用いてシンボルとコネクショナリズムの原理を組み合わせることで、離散表現を導出することを提案する。
対話型環境とタスクを設計することにより、機械が自発的で柔軟でセマンティックな言語を生成できることを実証した。
論文 参考訳(メタデータ) (2022-01-14T14:54:58Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - VSGM -- Enhance robot task understanding ability through visual semantic
graph [0.0]
ロボットに視覚的意味論と言語意味論の理解を与えることにより、推論能力が向上すると考えられる。
本稿では,セマンティックグラフを用いて,より優れた視覚的特徴を得る手法であるVSGMを提案する。
論文 参考訳(メタデータ) (2021-05-19T07:22:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。