論文の概要: PROGrasp: Pragmatic Human-Robot Communication for Object Grasping
- arxiv url: http://arxiv.org/abs/2309.07759v1
- Date: Thu, 14 Sep 2023 14:45:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 12:44:32.936754
- Title: PROGrasp: Pragmatic Human-Robot Communication for Object Grasping
- Title(参考訳): prograsp: 物体把握のための実用的ヒューマンロボットコミュニケーション
- Authors: Gi-Cheon Kang, Junghyun Kim, Jaein Kim, Byoung-Tak Zhang
- Abstract要約: 対話型オブジェクトグラスピング(IOG)は、人間とロボットの自然言語による対話を通じて、望ましいオブジェクトを識別し、把握するタスクである。
Pragmatic-IOG タスクとそれに対応するデータセット Intention-oriented Multi-Modal Dialogue (IM-Dial) を導入する。
我々は,ユーザの意図を解釈し,対象物であるPROGrasp(Pragmatic Object Grasping)をピックアップするロボットシステムを提案する。
- 参考スコア(独自算出の注目度): 24.23299571148265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive Object Grasping (IOG) is the task of identifying and grasping the
desired object via human-robot natural language interaction. Current IOG
systems assume that a human user initially specifies the target object's
category (e.g., bottle). Inspired by pragmatics, where humans often convey
their intentions by relying on context to achieve goals, we introduce a new IOG
task, Pragmatic-IOG, and the corresponding dataset, Intention-oriented
Multi-modal Dialogue (IM-Dial). In our proposed task scenario, an
intention-oriented utterance (e.g., "I am thirsty") is initially given to the
robot. The robot should then identify the target object by interacting with a
human user. Based on the task setup, we propose a new robotic system that can
interpret the user's intention and pick up the target object, Pragmatic Object
Grasping (PROGrasp). PROGrasp performs Pragmatic-IOG by incorporating modules
for visual grounding, question asking, object grasping, and most importantly,
answer interpretation for pragmatic inference. Experimental results show that
PROGrasp is effective in offline (i.e., target object discovery) and online
(i.e., IOG with a physical robot arm) settings.
- Abstract(参考訳): 対話型オブジェクトグラスピング(IOG)は、人間とロボットの自然言語による対話を通じて、望ましいオブジェクトを識別し、把握するタスクである。
現在のIOGシステムは、人間が最初に対象のオブジェクトのカテゴリ(例えばボトル)を指定すると仮定している。
目的達成のためにコンテキストに依存して意図を伝達する実践的手法に触発されて,新たなIOGタスクであるPragmatic-IOGと,それに対応するデータセットであるIntention-oriented Multi-modal Dialogue (IM-Dial)を導入する。
提案するタスクシナリオでは、まず、意図指向の発話(例えば「喉が渇いている」など)がロボットに与えられる。
ロボットは、人間のユーザと対話することで、対象物を識別する。
タスク設定に基づいて,ユーザの意図を解釈し,対象物であるPROGrasp(Pragmatic Object Grasping)をピックアップするロボットシステムを提案する。
PROGraspは、視覚的なグラウンドニング、質問、オブジェクトの把握、そして最も重要なのは、実用的推論の解答解釈のモジュールを組み込むことで、Pragmatic-IOGを実行する。
ProGraspはオフライン(ターゲットオブジェクト発見)やオンライン(物理ロボットアーム付きIOG)の設定で有効であることを示す実験結果が得られた。
関連論文リスト
- Learning-To-Rank Approach for Identifying Everyday Objects Using a
Physical-World Search Engine [0.8749675983608172]
我々は,オープン語彙のユーザ命令から対象オブジェクトをループで検索する作業に焦点をあてる。
本稿では,学習からランクの物理オブジェクトタスクのための新しいアプローチであるMultiRankItを提案する。
論文 参考訳(メタデータ) (2023-12-26T01:40:31Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Proactive Human-Robot Interaction using Visuo-Lingual Transformers [0.0]
人間は人間の相互作用を通して文脈を推測するために、潜伏したビスオ・言語的手がかりを抽出する能力を持っている。
本研究では,シーンからの視覚的手がかり,ユーザからの言語コマンド,事前オブジェクト間相互作用の知識を用いて,ユーザが達成しようとしている目標を積極的に予測する学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-04T00:50:21Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Can Foundation Models Perform Zero-Shot Task Specification For Robot
Manipulation? [54.442692221567796]
タスク仕様は、熟練していないエンドユーザの関与とパーソナライズされたロボットの採用に不可欠である。
タスク仕様に対する広く研究されているアプローチは、目標を通じて、コンパクトな状態ベクトルまたは同じロボットシーンのゴールイメージを使用することである。
そこで本研究では,人間の指定や使用が容易な目標仕様の代替的,より汎用的な形式について検討する。
論文 参考訳(メタデータ) (2022-04-23T19:39:49Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。