論文の概要: Talk-to-Resolve: Combining scene understanding and spatial dialogue to
resolve granular task ambiguity for a collocated robot
- arxiv url: http://arxiv.org/abs/2111.11099v1
- Date: Mon, 22 Nov 2021 10:42:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 15:02:10.251189
- Title: Talk-to-Resolve: Combining scene understanding and spatial dialogue to
resolve granular task ambiguity for a collocated robot
- Title(参考訳): 会話から解決:シーン理解と空間対話を組み合わせることで、協調型ロボットの作業あいまいさを解消する
- Authors: Pradip Pramanick, Chayan Sarkar, Snehasis Banerjee, Brojeshwar
Bhowmick
- Abstract要約: ロボットのコロケーションの実用性は、人間との容易で直感的な相互作用機構に大きく依存する。
本稿では,TTR(Talk-to-Resolve)と呼ばれるシステムについて述べる。
本システムでは,82%の精度でスタレマトを同定し,適切な対話交換で解決することができる。
- 参考スコア(独自算出の注目度): 15.408128612723882
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The utility of collocating robots largely depends on the easy and intuitive
interaction mechanism with the human. If a robot accepts task instruction in
natural language, first, it has to understand the user's intention by decoding
the instruction. However, while executing the task, the robot may face
unforeseeable circumstances due to the variations in the observed scene and
therefore requires further user intervention. In this article, we present a
system called Talk-to-Resolve (TTR) that enables a robot to initiate a coherent
dialogue exchange with the instructor by observing the scene visually to
resolve the impasse. Through dialogue, it either finds a cue to move forward in
the original plan, an acceptable alternative to the original plan, or
affirmation to abort the task altogether. To realize the possible stalemate, we
utilize the dense captions of the observed scene and the given instruction
jointly to compute the robot's next action. We evaluate our system based on a
data set of initial instruction and situational scene pairs. Our system can
identify the stalemate and resolve them with appropriate dialogue exchange with
82% accuracy. Additionally, a user study reveals that the questions from our
systems are more natural (4.02 on average on a scale of 1 to 5) as compared to
a state-of-the-art (3.08 on average).
- Abstract(参考訳): ロボットのコロケーションの実用性は、人間との容易で直感的な相互作用機構に大きく依存する。
ロボットが自然言語でタスク命令を受け入れる場合、まず、命令をデコードすることでユーザの意図を理解する必要がある。
しかし,タスクの実行中,観察シーンの変動によりロボットは予期せぬ状況に直面する可能性があるため,さらなるユーザ介入が必要となる。
本稿では,ロボットが現場を視覚的に観察してインストラクタとのコヒーレントな対話を開始し,インストラクタの障害を解消するシステムであるTalk-to-Resolve(TTR)を提案する。
対話を通じて、元の計画を進めるためのヒントを見つけるか、元の計画の代替として受け入れられるか、あるいはタスクを完全に中止することを肯定する。
そこで本研究では,ロボットの次の動作を計算するために,観察シーンの濃密なキャプションと与えられた指示を併用する。
我々は,初期命令と状況シーンペアのデータセットに基づいてシステムを評価する。
本システムでは,82%の精度でスタレマトを同定し,適切な対話交換で解決することができる。
さらに、ユーザ調査により、我々のシステムからの質問は、最先端の3.08よりも自然(平均は1から5のスケールで4.02)であることが判明した。
関連論文リスト
- Real-time Addressee Estimation: Deployment of a Deep-Learning Model on
the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。
人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。
本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文 参考訳(メタデータ) (2023-11-09T13:01:21Z) - Dobby: A Conversational Service Robot Driven by GPT-4 [22.701223191699412]
この研究は、対話型AIエージェントをサービスタスクの具体化システムに組み込むロボティクスプラットフォームを導入する。
このエージェントは、膨大な一般知識のコーパスから学んだ、大きな言語モデルに由来する。
本発明のエージェントは対話生成に加えて、ロボットのコマンドを呼び出し、物理世界と対話することができる。
論文 参考訳(メタデータ) (2023-10-10T04:34:00Z) - Proactive Human-Robot Interaction using Visuo-Lingual Transformers [0.0]
人間は人間の相互作用を通して文脈を推測するために、潜伏したビスオ・言語的手がかりを抽出する能力を持っている。
本研究では,シーンからの視覚的手がかり,ユーザからの言語コマンド,事前オブジェクト間相互作用の知識を用いて,ユーザが達成しようとしている目標を積極的に予測する学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-04T00:50:21Z) - "No, to the Right" -- Online Language Corrections for Robotic
Manipulation via Shared Autonomy [70.45420918526926]
LILACは、実行中に自然言語の修正をオンラインで実施し、適応するためのフレームワークである。
LILACは人間とロボットを個別にターンテイクする代わりに、人間とロボットの間にエージェンシーを分割する。
提案手法は,タスク完了率が高く,ユーザによって主観的に好まれることを示す。
論文 参考訳(メタデータ) (2023-01-06T15:03:27Z) - Instruction-driven history-aware policies for robotic manipulations [82.25511767738224]
複数の入力を考慮に入れた統一型トランスフォーマー方式を提案する。
特に,我々のトランスフォーマーアーキテクチャは,(i)自然言語命令と(ii)多視点シーン観測を統合している。
RLBenchベンチマークと実世界のロボットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-11T16:28:25Z) - Correcting Robot Plans with Natural Language Feedback [88.92824527743105]
ロボットの修正のための表現的かつ柔軟なツールとして自然言語を探索する。
これらの変換により、ユーザは目標を正し、ロボットの動きを更新し、計画上のエラーから回復できる。
本手法により,シミュレーション環境や実環境において,複数の制約を合成し,未知のシーン,オブジェクト,文に一般化することが可能となる。
論文 参考訳(メタデータ) (2022-04-11T15:22:43Z) - Towards Large-Scale Interpretable Knowledge Graph Reasoning for Dialogue
Systems [109.16553492049441]
よりスケーラブルで一般化可能な対話システムに知識推論機能を組み込む新しい手法を提案する。
我々の知識を最大限に活用するために、変圧器モデルが微分可能な知識グラフを解析して応答を生成するのは、これが初めてである。
論文 参考訳(メタデータ) (2022-03-20T17:51:49Z) - BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning [108.41464483878683]
本稿では,視覚に基づくロボット操作システムにおいて,新しいタスクを一般化することの課題について検討する。
実演と介入の両方から学ぶことができるインタラクティブで柔軟な模倣学習システムを開発した。
実際のロボットにおけるデータ収集を100以上のタスクにスケールすると、このシステムは平均的な成功率44%で24の目に見えない操作タスクを実行できる。
論文 参考訳(メタデータ) (2022-02-04T07:30:48Z) - Scene Editing as Teleoperation: A Case Study in 6DoF Kit Assembly [18.563562557565483]
遠隔操作によるシーン編集(SEaT)の枠組みを提案する。
ロボットを制御する代わりに、ユーザーはタスクのゴールを指定することに集中する。
ユーザは、ロボットハードウェアの専門知識を必要とせずに遠隔操作を行うことができる。
論文 参考訳(メタデータ) (2021-10-09T04:22:21Z) - Dialogue Object Search [11.431837357827396]
対話対象探索という新たなタスクを導入し,人間環境下で対象物を探索するロボットを課題とする。
ロボットは、搭載されたカメラからの画像を共有しながら、人間と音声ベースの対話を行う。
このタスクは、データ収集、アルゴリズム、システム開発から評価に至るまで、複数のレベルで難しい。
論文 参考訳(メタデータ) (2021-07-22T13:32:14Z) - Composing Pick-and-Place Tasks By Grounding Language [41.075844857146805]
制約のない言語指示に従って任意の物体を選定・配置するロボットシステムを提案する。
提案手法は,入力画像と言語表現からオブジェクトとその関係を推定する。
実世界のpr2ロボットを用いて得られた結果は,本手法の有効性を示す。
論文 参考訳(メタデータ) (2021-02-16T11:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。