論文の概要: R2H: Building Multimodal Navigation Helpers that Respond to Help
- arxiv url: http://arxiv.org/abs/2305.14260v1
- Date: Tue, 23 May 2023 17:12:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 14:13:40.047357
- Title: R2H: Building Multimodal Navigation Helpers that Respond to Help
- Title(参考訳): R2H: 助けを求めるマルチモーダルナビゲーションヘルパーの構築
- Authors: Yue Fan, Kaizhi Zheng, Jing Gu, Xin Eric Wang
- Abstract要約: 本稿では、ヘルプに応答可能なマルチモーダルナビゲーションヘルパーを構築するための新しいベンチマークであるRespond to Help (R2H)を提案する。
R2Hは主に,(1)対話履歴に基づく情報発信能力を評価する対話履歴応答(RDH),(2)対話中応答(RdI)の2つのタスクを含む。
タスク指向のマルチモーダル応答生成モデルを提案する。
- 参考スコア(独自算出の注目度): 12.0654222281131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to assist humans during a navigation task in a supportive role is
crucial for intelligent agents. Such agents, equipped with environment
knowledge and conversational abilities, can guide individuals through
unfamiliar terrains by generating natural language responses to their
inquiries, grounded in the visual information of their surroundings. However,
these multimodal conversational navigation helpers are still underdeveloped.
This paper proposes a new benchmark, Respond to Help (R2H), to build multimodal
navigation helpers that can respond to help, based on existing dialog-based
embodied datasets. R2H mainly includes two tasks: (1) Respond to Dialog History
(RDH), which assesses the helper agent's ability to generate informative
responses based on a given dialog history, and (2) Respond during Interaction
(RdI), which evaluates the helper agent's ability to maintain effective and
consistent cooperation with a task performer agent during navigation in
real-time. Furthermore, we propose a novel task-oriented multimodal response
generation model that can see and respond, named SeeRee, as the navigation
helper to guide the task performer in embodied tasks. Through both automatic
and human evaluations, we show that SeeRee produces more effective and
informative responses than baseline methods in assisting the task performer
with different navigation tasks. Project website:
https://sites.google.com/view/respond2help/home.
- Abstract(参考訳): 補助的な役割のナビゲーションタスク中に人間を助ける能力は、知的エージェントにとって不可欠である。
このようなエージェントは、環境知識と会話能力を備えており、周囲の視覚情報に基づく質問に対して自然言語応答を発生させることで、不慣れな地形を通じて個人を誘導することができる。
しかし、これらのマルチモーダルな対話ナビゲーションヘルパーはまだ未開発である。
本稿では、既存のダイアログベースの埋め込みデータセットに基づいて、ヘルプに応答可能なマルチモーダルナビゲーションヘルパーを構築するための新しいベンチマークであるRespond to Help (R2H)を提案する。
r2hは主に、(1)ヘルパーエージェントが与えられたダイアログ履歴に基づいて情報応答を生成する能力を評価するrdhに応答する、(2)ヘルパーエージェントがリアルタイムでタスク実行エージェントと効果的かつ一貫した協調を維持する能力を評価するrdiに応答する、という2つのタスクを含んでいる。
さらに,タスクパフォーマーを具体的タスクで案内するナビゲーション・ヘルパーとして,SeeReeと呼ばれる,タスク指向のマルチモーダル応答生成モデルを提案する。
自動評価と人的評価の両方を通して、SeeReeは、異なるナビゲーションタスクでタスクパフォーマーを支援するベースライン手法よりも、より効果的で有益な応答を生成する。
プロジェクトウェブサイト: https://sites.google.com/view/respond2help/home
関連論文リスト
- Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [102.31558123570437]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - ReSpAct: Harmonizing Reasoning, Speaking, and Acting Towards Building Large Language Model-Based Conversational AI Agents [11.118991548784459]
大規模言語モデル(LLM)ベースのエージェントは、ますます外部環境との対話に使われている。
現在のフレームワークでは、これらのエージェントがユーザと対話してタスクの詳細を調整できない。
この作業では、タスク指向の"会話型"エージェントを構築する上で不可欠なスキルを組み合わせた、新しいフレームワークであるReSpActを紹介します。
論文 参考訳(メタデータ) (2024-11-01T15:57:45Z) - RAG based Question-Answering for Contextual Response Prediction System [0.4660328753262075]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて汎用性を示している。
Retrieval Augmented Generation (RAG)は、この課題に対処するための有望な技術として登場した。
本稿では,産業用ユースケースにRAG機能を備えたLCMを用いたエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-05T17:14:23Z) - Manual-Guided Dialogue for Flexible Conversational Agents [84.46598430403886]
対話データを効率的に構築し、利用する方法や、さまざまなドメインにモデルを大規模にデプロイする方法は、タスク指向の対話システムを構築する上で重要な問題である。
エージェントは対話とマニュアルの両方からタスクを学習する。
提案手法は,詳細なドメインオントロジーに対する対話モデルの依存性を低減し,様々なドメインへの適応をより柔軟にする。
論文 参考訳(メタデータ) (2022-08-16T08:21:12Z) - INSCIT: Information-Seeking Conversations with Mixed-Initiative
Interactions [47.90088587508672]
InSCItは、混合開始型インタラクションによる情報探索会話のためのデータセットである。
ユーザーエージェントは805対人会話から4.7Kである。
対話型知識認識とオープンドメイン質問応答の最先端モデルに基づく2つのシステムの結果を報告する。
論文 参考訳(メタデータ) (2022-07-02T06:18:12Z) - KETOD: Knowledge-Enriched Task-Oriented Dialogue [77.59814785157877]
対話システム研究における既存の研究は、主にタスク指向の対話とチャットを独立したドメインとして扱う。
本研究では,タスク指向対話と知識ベースチップチャットを一つのモデルに効果的に統合する方法について検討する。
論文 参考訳(メタデータ) (2022-05-11T16:01:03Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z) - RMM: A Recursive Mental Model for Dialog Navigation [102.42641990401735]
言語誘導ロボットは、人間の質問と答えの理解の両方を行なわなければならない。
心の理論から着想を得た再帰的メンタルモデル(RMM)を提案する。
我々は、RMMが新しい環境へのより良い一般化を可能にすることを実証する。
論文 参考訳(メタデータ) (2020-05-02T06:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。