論文の概要: Talk-to-Resolve: Combining scene understanding and spatial dialogue to
resolve granular task ambiguity for a collocated robot
- arxiv url: http://arxiv.org/abs/2111.11099v1
- Date: Mon, 22 Nov 2021 10:42:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 15:02:10.251189
- Title: Talk-to-Resolve: Combining scene understanding and spatial dialogue to
resolve granular task ambiguity for a collocated robot
- Title(参考訳): 会話から解決:シーン理解と空間対話を組み合わせることで、協調型ロボットの作業あいまいさを解消する
- Authors: Pradip Pramanick, Chayan Sarkar, Snehasis Banerjee, Brojeshwar
Bhowmick
- Abstract要約: ロボットのコロケーションの実用性は、人間との容易で直感的な相互作用機構に大きく依存する。
本稿では,TTR(Talk-to-Resolve)と呼ばれるシステムについて述べる。
本システムでは,82%の精度でスタレマトを同定し,適切な対話交換で解決することができる。
- 参考スコア(独自算出の注目度): 15.408128612723882
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The utility of collocating robots largely depends on the easy and intuitive
interaction mechanism with the human. If a robot accepts task instruction in
natural language, first, it has to understand the user's intention by decoding
the instruction. However, while executing the task, the robot may face
unforeseeable circumstances due to the variations in the observed scene and
therefore requires further user intervention. In this article, we present a
system called Talk-to-Resolve (TTR) that enables a robot to initiate a coherent
dialogue exchange with the instructor by observing the scene visually to
resolve the impasse. Through dialogue, it either finds a cue to move forward in
the original plan, an acceptable alternative to the original plan, or
affirmation to abort the task altogether. To realize the possible stalemate, we
utilize the dense captions of the observed scene and the given instruction
jointly to compute the robot's next action. We evaluate our system based on a
data set of initial instruction and situational scene pairs. Our system can
identify the stalemate and resolve them with appropriate dialogue exchange with
82% accuracy. Additionally, a user study reveals that the questions from our
systems are more natural (4.02 on average on a scale of 1 to 5) as compared to
a state-of-the-art (3.08 on average).
- Abstract(参考訳): ロボットのコロケーションの実用性は、人間との容易で直感的な相互作用機構に大きく依存する。
ロボットが自然言語でタスク命令を受け入れる場合、まず、命令をデコードすることでユーザの意図を理解する必要がある。
しかし,タスクの実行中,観察シーンの変動によりロボットは予期せぬ状況に直面する可能性があるため,さらなるユーザ介入が必要となる。
本稿では,ロボットが現場を視覚的に観察してインストラクタとのコヒーレントな対話を開始し,インストラクタの障害を解消するシステムであるTalk-to-Resolve(TTR)を提案する。
対話を通じて、元の計画を進めるためのヒントを見つけるか、元の計画の代替として受け入れられるか、あるいはタスクを完全に中止することを肯定する。
そこで本研究では,ロボットの次の動作を計算するために,観察シーンの濃密なキャプションと与えられた指示を併用する。
我々は,初期命令と状況シーンペアのデータセットに基づいてシステムを評価する。
本システムでは,82%の精度でスタレマトを同定し,適切な対話交換で解決することができる。
さらに、ユーザ調査により、我々のシステムからの質問は、最先端の3.08よりも自然(平均は1から5のスケールで4.02)であることが判明した。
関連論文リスト
- Vocal Sandbox: Continual Learning and Adaptation for Situated Human-Robot Collaboration [64.6107798750142]
Vocal Sandboxは、位置のある環境でシームレスな人間とロボットのコラボレーションを可能にするフレームワークである。
我々は,ロボットの能力に対する理解と協調をリアルタイムで構築できる軽量で解釈可能な学習アルゴリズムを設計する。
我々はVocal Sandboxを,コラボレーションギフトバッグアセンブリとLEGOストップモーションアニメーションの2つの設定で評価した。
論文 参考訳(メタデータ) (2024-11-04T20:44:40Z) - Context-Aware Command Understanding for Tabletop Scenarios [1.7082212774297747]
本稿では,テーブルトップシナリオにおける自然人コマンドの解釈を目的とした,新しいハイブリッドアルゴリズムを提案する。
音声、ジェスチャー、シーンコンテキストを含む複数の情報ソースを統合することにより、ロボットに対して実行可能な指示を抽出する。
システムの長所と短所、特にマルチモーダルコマンド解釈の扱い方について論じる。
論文 参考訳(メタデータ) (2024-10-08T20:46:39Z) - SECURE: Semantics-aware Embodied Conversation under Unawareness for Lifelong Robot Learning [17.125080112897102]
本稿では,ロボットが指示されたタスクを解く上で鍵となる概念を知らない,困難な対話型タスク学習シナリオについて論じる。
本稿では,このような問題を解決するための対話型タスク学習フレームワークSECUREを提案する。
SECUREを用いて、ロボットはミスをしたときのユーザの補正フィードバックから学習するだけでなく、指示されたタスクを解決するための新しい概念に関する有用な証拠を明らかにするための戦略的対話決定も行う。
論文 参考訳(メタデータ) (2024-09-26T11:40:07Z) - Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。
SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。
本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-04-08T15:22:38Z) - Real-time Addressee Estimation: Deployment of a Deep-Learning Model on
the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。
人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。
本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文 参考訳(メタデータ) (2023-11-09T13:01:21Z) - Proactive Human-Robot Interaction using Visuo-Lingual Transformers [0.0]
人間は人間の相互作用を通して文脈を推測するために、潜伏したビスオ・言語的手がかりを抽出する能力を持っている。
本研究では,シーンからの視覚的手がかり,ユーザからの言語コマンド,事前オブジェクト間相互作用の知識を用いて,ユーザが達成しようとしている目標を積極的に予測する学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-04T00:50:21Z) - "No, to the Right" -- Online Language Corrections for Robotic
Manipulation via Shared Autonomy [70.45420918526926]
LILACは、実行中に自然言語の修正をオンラインで実施し、適応するためのフレームワークである。
LILACは人間とロボットを個別にターンテイクする代わりに、人間とロボットの間にエージェンシーを分割する。
提案手法は,タスク完了率が高く,ユーザによって主観的に好まれることを示す。
論文 参考訳(メタデータ) (2023-01-06T15:03:27Z) - Instruction-driven history-aware policies for robotic manipulations [82.25511767738224]
複数の入力を考慮に入れた統一型トランスフォーマー方式を提案する。
特に,我々のトランスフォーマーアーキテクチャは,(i)自然言語命令と(ii)多視点シーン観測を統合している。
RLBenchベンチマークと実世界のロボットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-11T16:28:25Z) - Correcting Robot Plans with Natural Language Feedback [88.92824527743105]
ロボットの修正のための表現的かつ柔軟なツールとして自然言語を探索する。
これらの変換により、ユーザは目標を正し、ロボットの動きを更新し、計画上のエラーから回復できる。
本手法により,シミュレーション環境や実環境において,複数の制約を合成し,未知のシーン,オブジェクト,文に一般化することが可能となる。
論文 参考訳(メタデータ) (2022-04-11T15:22:43Z) - Scene Editing as Teleoperation: A Case Study in 6DoF Kit Assembly [18.563562557565483]
遠隔操作によるシーン編集(SEaT)の枠組みを提案する。
ロボットを制御する代わりに、ユーザーはタスクのゴールを指定することに集中する。
ユーザは、ロボットハードウェアの専門知識を必要とせずに遠隔操作を行うことができる。
論文 参考訳(メタデータ) (2021-10-09T04:22:21Z) - Composing Pick-and-Place Tasks By Grounding Language [41.075844857146805]
制約のない言語指示に従って任意の物体を選定・配置するロボットシステムを提案する。
提案手法は,入力画像と言語表現からオブジェクトとその関係を推定する。
実世界のpr2ロボットを用いて得られた結果は,本手法の有効性を示す。
論文 参考訳(メタデータ) (2021-02-16T11:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。