論文の概要: R2H: Building Multimodal Navigation Helpers that Respond to Help
Requests
- arxiv url: http://arxiv.org/abs/2305.14260v2
- Date: Tue, 17 Oct 2023 17:46:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 21:41:23.561405
- Title: R2H: Building Multimodal Navigation Helpers that Respond to Help
Requests
- Title(参考訳): R2H:リクエストに応答するマルチモーダルナビゲーションヘルパーの構築
- Authors: Yue Fan, Jing Gu, Kaizhi Zheng, Xin Eric Wang
- Abstract要約: まず、マルチモーダルナビゲーションヘルパーの開発を促進するために、新しいベンチマークであるRespond to Help Requests (R2H)を導入する。
R2Hは主に2つのタスクを含む:(1)対話履歴(RDH)、(2)対話履歴に基づいて情報応答を生成するヘルパーエージェントの能力を評価する、(2)対話中の応答(RdI)、(2)タスクパフォーマーとの一貫性のある協調における応答の有効性と効率を評価する。
- 参考スコア(独自算出の注目度): 30.695642371684663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intelligent navigation-helper agents are critical as they can navigate users
in unknown areas through environmental awareness and conversational ability,
serving as potential accessibility tools for individuals with disabilities. In
this work, we first introduce a novel benchmark, Respond to Help Requests
(R2H), to promote the development of multi-modal navigation helpers capable of
responding to requests for help, utilizing existing dialog-based embodied
datasets. R2H mainly includes two tasks: (1) Respond to Dialog History (RDH),
which assesses the helper agent's ability to generate informative responses
based on a given dialog history, and (2) Respond during Interaction (RdI),
which evaluates the effectiveness and efficiency of the response during
consistent cooperation with a task performer. Furthermore, we explore two
approaches to construct the navigation-helper agent, including fine-tuning a
novel task-oriented multi-modal response generation model that can see and
respond, named SeeRee, and employing a multi-modal large language model in a
zero-shot manner. Analysis of the task and method was conducted based on both
automatic benchmarking and human evaluations. Project website:
https://sites.google.com/view/response2helprequests/home.
- Abstract(参考訳): 知的ナビゲーション支援エージェントは、環境認識と会話能力を通じて未知の領域のユーザをナビゲートし、障害を持つ個人へのアクセシビリティーツールとして役立つため、非常に重要である。
本稿では,新しいベンチマークであるrespond to help requests(r2h)を導入することで,既存のダイアログベースの具体化されたデータセットを利用して,ヘルプに応答可能なマルチモーダルナビゲーションヘルパの開発を促進する。
R2Hは主に2つのタスクを含む:(1)対話履歴(RDH)、(2)対話履歴に基づいて情報応答を生成するヘルパーエージェントの能力を評価する、(2)対話中の応答(RdI)、(2)タスクパフォーマーとの一貫性のある協調における応答の有効性と効率を評価する。
さらに,SeeReeと名づけられたタスク指向のマルチモーダル応答生成モデルを微調整し,マルチモーダルな大規模言語モデルをゼロショットで活用するなど,ナビゲーション・ヘルパーエージェントを構築するための2つのアプローチを検討する。
自動ベンチマークと人的評価の両方に基づいてタスクと手法の分析を行った。
プロジェクトウェブサイト: https://sites.google.com/view/response2helprequests/home
関連論文リスト
- Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [102.31558123570437]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - ReSpAct: Harmonizing Reasoning, Speaking, and Acting Towards Building Large Language Model-Based Conversational AI Agents [11.118991548784459]
大規模言語モデル(LLM)ベースのエージェントは、ますます外部環境との対話に使われている。
現在のフレームワークでは、これらのエージェントがユーザと対話してタスクの詳細を調整できない。
この作業では、タスク指向の"会話型"エージェントを構築する上で不可欠なスキルを組み合わせた、新しいフレームワークであるReSpActを紹介します。
論文 参考訳(メタデータ) (2024-11-01T15:57:45Z) - RAG based Question-Answering for Contextual Response Prediction System [0.4660328753262075]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて汎用性を示している。
Retrieval Augmented Generation (RAG)は、この課題に対処するための有望な技術として登場した。
本稿では,産業用ユースケースにRAG機能を備えたLCMを用いたエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-05T17:14:23Z) - Manual-Guided Dialogue for Flexible Conversational Agents [84.46598430403886]
対話データを効率的に構築し、利用する方法や、さまざまなドメインにモデルを大規模にデプロイする方法は、タスク指向の対話システムを構築する上で重要な問題である。
エージェントは対話とマニュアルの両方からタスクを学習する。
提案手法は,詳細なドメインオントロジーに対する対話モデルの依存性を低減し,様々なドメインへの適応をより柔軟にする。
論文 参考訳(メタデータ) (2022-08-16T08:21:12Z) - INSCIT: Information-Seeking Conversations with Mixed-Initiative
Interactions [47.90088587508672]
InSCItは、混合開始型インタラクションによる情報探索会話のためのデータセットである。
ユーザーエージェントは805対人会話から4.7Kである。
対話型知識認識とオープンドメイン質問応答の最先端モデルに基づく2つのシステムの結果を報告する。
論文 参考訳(メタデータ) (2022-07-02T06:18:12Z) - KETOD: Knowledge-Enriched Task-Oriented Dialogue [77.59814785157877]
対話システム研究における既存の研究は、主にタスク指向の対話とチャットを独立したドメインとして扱う。
本研究では,タスク指向対話と知識ベースチップチャットを一つのモデルに効果的に統合する方法について検討する。
論文 参考訳(メタデータ) (2022-05-11T16:01:03Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z) - RMM: A Recursive Mental Model for Dialog Navigation [102.42641990401735]
言語誘導ロボットは、人間の質問と答えの理解の両方を行なわなければならない。
心の理論から着想を得た再帰的メンタルモデル(RMM)を提案する。
我々は、RMMが新しい環境へのより良い一般化を可能にすることを実証する。
論文 参考訳(メタデータ) (2020-05-02T06:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。