Fugu-MT 論文翻訳(概要): Proactive Human-Robot Interaction using Visuo-Lingual Transformers

論文の概要: Proactive Human-Robot Interaction using Visuo-Lingual Transformers

arxiv url: http://arxiv.org/abs/2310.02506v1
Date: Wed, 4 Oct 2023 00:50:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 17:01:14.411049
Title: Proactive Human-Robot Interaction using Visuo-Lingual Transformers
Title（参考訳）: Visuo-Lingual Transformer を用いた能動ロボットインタラクション
Authors: Pranay Mathur
Abstract要約: 人間は人間の相互作用を通して文脈を推測するために、潜伏したビスオ・言語的手がかりを抽出する能力を持っている。本研究では,シーンからの視覚的手がかり,ユーザからの言語コマンド,事前オブジェクト間相互作用の知識を用いて,ユーザが達成しようとしている目標を積極的に予測する学習手法を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Humans possess the innate ability to extract latent visuo-lingual cues to infer context through human interaction. During collaboration, this enables proactive prediction of the underlying intention of a series of tasks. In contrast, robotic agents collaborating with humans naively follow elementary instructions to complete tasks or use specific hand-crafted triggers to initiate proactive collaboration when working towards the completion of a goal. Endowing such robots with the ability to reason about the end goal and proactively suggest intermediate tasks will engender a much more intuitive method for human-robot collaboration. To this end, we propose a learning-based method that uses visual cues from the scene, lingual commands from a user and knowledge of prior object-object interaction to identify and proactively predict the underlying goal the user intends to achieve. Specifically, we propose ViLing-MMT, a vision-language multimodal transformer-based architecture that captures inter and intra-modal dependencies to provide accurate scene descriptions and proactively suggest tasks where applicable. We evaluate our proposed model in simulation and real-world scenarios.
Abstract（参考訳）: 人間は、人間の相互作用を通じて文脈を推測するために潜在的な内舌の手がかりを抽出できる生来の能力を持っている。コラボレーションの間、これは一連のタスクの基本的な意図を積極的な予測を可能にする。対照的に、人間と協調するロボットエージェントは、基本的な指示に従ってタスクを完了したり、特定の手作りのトリガーを使ってゴールの完了に向けての積極的なコラボレーションを開始する。このようなロボットをエンドゴールを推論し、積極的に中間タスクを提案することで、人間とロボットのコラボレーションのより直感的な方法がもたらされる。そこで本研究では,シーンからの視覚的手がかり,ユーザからの言語コマンド,事前オブジェクト間インタラクションの知識を用いて,ユーザが達成しようとしている目標を積極的に予測する学習手法を提案する。具体的には、視覚言語に基づくマルチモーダルトランスフォーマーベースのアーキテクチャであるViLing-MMTを提案する。シミュレーションと実世界のシナリオにおいて提案モデルを評価する。

関連論文リスト

ProVox: Personalization and Proactive Planning for Situated Human-Robot Collaboration [28.29030844693482]
協調型ロボットは、パートナーの意図や好みに迅速に適応し、積極的に有用な行動を特定する必要がある。 ProVoxは、ロボットが個人の協力者に効率よくパーソナライズし、適応できる新しいフレームワークである。分析の結果,メタプロンプトとプロアクティブの両方が重要であり,タスク完了時間が38.7%,ユーザ負担が31.9%減少した。
論文参考訳（メタデータ） (2025-06-13T21:50:10Z)
Context-Aware Command Understanding for Tabletop Scenarios [1.7082212774297747]
本稿では,テーブルトップシナリオにおける自然人コマンドの解釈を目的とした,新しいハイブリッドアルゴリズムを提案する。音声、ジェスチャー、シーンコンテキストを含む複数の情報ソースを統合することにより、ロボットに対して実行可能な指示を抽出する。システムの長所と短所、特にマルチモーダルコマンド解釈の扱い方について論じる。
論文参考訳（メタデータ） (2024-10-08T20:46:39Z)
LIT: Large Language Model Driven Intention Tracking for Proactive Human-Robot Collaboration -- A Robot Sous-Chef Application [4.519544934630495]
大型言語モデル (LLM) と視覚言語モデル (VLM) は、ロボットが自然言語のプロンプトを制御アクションに接地できるようにする。言語駆動型意図追跡(LIT)は,人間の長期動作をモデル化し,ロボットを積極的に協調するための次の人間の意図を予測する。
論文参考訳（メタデータ） (2024-06-19T19:18:40Z)
Comparing Apples to Oranges: LLM-powered Multimodal Intention Prediction in an Object Categorization Task [17.190635800969456]
本稿では,ロボットとの協調的な対象分類タスクにおいて,人間の意図を推定するために,Large Language Modelsを用いて検討する。本研究では, ユーザの身振り, 身振り, 表情などの非言語的手がかりを, ユーザの意図を予測するために, 環境状態やユーザの言葉的手がかりと統合する, 新たなマルチモーダルアプローチを提案する。
論文参考訳（メタデータ） (2024-04-12T12:15:14Z)
Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。 SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文参考訳（メタデータ） (2024-04-08T15:22:38Z)
ThinkBot: Embodied Instruction Following with Thought Chain Reasoning [66.09880459084901]
EIF(Embodied Instruction following)は、複雑な環境下でオブジェクトを相互作用させることで、エージェントが人間の指示を完了させる。我々は,人間の指導における思考連鎖を原因とした思考ボットを提案し,その不足した行動記述を復元する。私たちのThinkBotは、成功率と実行効率の両面で、最先端のEIFメソッドよりも大きなマージンで優れています。
論文参考訳（メタデータ） (2023-12-12T08:30:09Z)
Real-time Addressee Estimation: Deployment of a Deep-Learning Model on the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文参考訳（メタデータ） (2023-11-09T13:01:21Z)
Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文参考訳（メタデータ） (2023-10-04T17:59:38Z)
Can Foundation Models Perform Zero-Shot Task Specification For Robot Manipulation? [54.442692221567796]
タスク仕様は、熟練していないエンドユーザの関与とパーソナライズされたロボットの採用に不可欠である。タスク仕様に対する広く研究されているアプローチは、目標を通じて、コンパクトな状態ベクトルまたは同じロボットシーンのゴールイメージを使用することである。そこで本研究では,人間の指定や使用が容易な目標仕様の代替的,より汎用的な形式について検討する。
論文参考訳（メタデータ） (2022-04-23T19:39:49Z)
Summarizing a virtual robot's past actions in natural language [0.3553493344868413]
本稿では,ロボット行動と自然言語記述とを一致させた一般的なデータセットを,ロボット行動要約作業のトレーニング場として活用する方法について述べる。自動プランナーが使用する動作の中間テキスト表現や、ロボットの自我中心の映像フレームから、このような要約を生成するためのいくつかの方法を提案し、テストする。
論文参考訳（メタデータ） (2022-03-13T15:00:46Z)
Joint Mind Modeling for Explanation Generation in Complex Human-Robot Collaborative Tasks [83.37025218216888]
本稿では,人間とロボットのコラボレーションにおいて,人間のようなコミュニケーションを実現するための新しい説明可能なAI(XAI)フレームワークを提案する。ロボットは、人間のユーザの階層的なマインドモデルを構築し、コミュニケーションの一形態として自身のマインドの説明を生成する。その結果,提案手法はロボットの協調動作性能とユーザ認識を著しく向上させることがわかった。
論文参考訳（メタデータ） (2020-07-24T23:35:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。