論文の概要: DialFRED: Dialogue-Enabled Agents for Embodied Instruction Following
- arxiv url: http://arxiv.org/abs/2202.13330v1
- Date: Sun, 27 Feb 2022 09:50:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 17:16:34.437661
- Title: DialFRED: Dialogue-Enabled Agents for Embodied Instruction Following
- Title(参考訳): DialFRED: 感染予防のための対話型エージェント
- Authors: Xiaofeng Gao, Qiaozi Gao, Ran Gong, Kaixiang Lin, Govind Thattai,
Gaurav S. Sukhatme
- Abstract要約: ALFREDベンチマークに基づく対話型エンボディドインストラクションであるDialFREDを提案する。
53Kのタスク関連質問と回答と,質問に回答するためのオラクルを備えた,人間注釈付きデータセットをリリースする。
- 参考スコア(独自算出の注目度): 25.73783062207812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-guided Embodied AI benchmarks requiring an agent to navigate an
environment and manipulate objects typically allow one-way communication: the
human user gives a natural language command to the agent, and the agent can
only follow the command passively. We present DialFRED, a dialogue-enabled
embodied instruction following benchmark based on the ALFRED benchmark.
DialFRED allows an agent to actively ask questions to the human user; the
additional information in the user's response is used by the agent to better
complete its task. We release a human-annotated dataset with 53K task-relevant
questions and answers and an oracle to answer questions. To solve DialFRED, we
propose a questioner-performer framework wherein the questioner is pre-trained
with the human-annotated data and fine-tuned with reinforcement learning. We
make DialFRED publicly available and encourage researchers to propose and
evaluate their solutions to building dialog-enabled embodied agents.
- Abstract(参考訳): 言語誘導型具体化されたaiベンチマークでは、エージェントが環境をナビゲートし、オブジェクトを操作する必要がある。
ALFREDベンチマークに基づく対話型エンボディドインストラクションであるDialFREDを提案する。
DialFREDは、エージェントが人間のユーザに対して積極的に質問することを可能にする。
53Kのタスク関連質問と回答と,質問に回答するためのオラクルを備えた,人間注釈付きデータセットをリリースする。
DialFREDを解くために,質問者は人手による注釈付きデータで事前学習され,強化学習で微調整される質問者・実行者フレームワークを提案する。
dialfredを一般公開し、ダイアログ対応の具体化エージェント構築のためのソリューションの提案と評価を研究者に促す。
関連論文リスト
- ReSpAct: Harmonizing Reasoning, Speaking, and Acting Towards Building Large Language Model-Based Conversational AI Agents [11.118991548784459]
大規模言語モデル(LLM)ベースのエージェントは、ますます外部環境との対話に使われている。
現在のフレームワークでは、これらのエージェントがユーザと対話してタスクの詳細を調整できない。
この作業では、タスク指向の"会話型"エージェントを構築する上で不可欠なスキルを組み合わせた、新しいフレームワークであるReSpActを紹介します。
論文 参考訳(メタデータ) (2024-11-01T15:57:45Z) - Simulating User Agents for Embodied Conversational-AI [9.402740034754455]
我々は,エンボディエージェントとのインタラクション中にユーザ動作をシミュレート可能な,LLMベースのユーザエージェントを構築した。
シミュレーション対話をTEAChデータセットと比較することにより,ユーザエージェントの人間的行動生成能力を評価する。
論文 参考訳(メタデータ) (2024-10-31T00:56:08Z) - ClarQ-LLM: A Benchmark for Models Clarifying and Requesting Information in Task-Oriented Dialog [11.585398152713505]
ClarQ-LLMは、バイリンガルな英語と中国語の会話タスク、会話エージェント、評価指標からなる評価フレームワークである。
ベンチマークには31の異なるタスクタイプが含まれており、それぞれに情報検索者とプロバイダエージェント間の10のユニークな対話シナリオがある。
固定された対話コンテンツに基づいてエージェントを評価する従来のベンチマークとは異なり、ClarQ-LLMには、元のヒューマンプロバイダを複製するプロバイダ対話エージェントが含まれている。
論文 参考訳(メタデータ) (2024-09-09T22:29:35Z) - ProductAgent: Benchmarking Conversational Product Search Agent with Asking Clarification Questions [68.81939215223818]
ProductAgentは,戦略的明確化質問生成機能と動的製品検索機能を備えた対話情報探索エージェントである。
我々は,製品特徴の要約,クエリ生成,製品検索のための戦略を持ったエージェントを開発する。
実験の結果,ProductAgentはユーザとポジティブに対話し,対話のターンの増加に伴う検索性能の向上を図っている。
論文 参考訳(メタデータ) (2024-07-01T03:50:23Z) - Beyond Static Evaluation: A Dynamic Approach to Assessing AI Assistants' API Invocation Capabilities [48.922660354417204]
人間の関与なしにアシスタントのAPIコール能力を評価するために,自動動的評価(Automated Dynamic Evaluation, AutoDE)を提案する。
この枠組みでは,人間と機械の相互作用において,真の人間の会話パターンを忠実に反映するように努力する。
論文 参考訳(メタデータ) (2024-03-17T07:34:12Z) - Tell Me More! Towards Implicit User Intention Understanding of Language
Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。
Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。
私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文 参考訳(メタデータ) (2024-02-14T14:36:30Z) - Improving Grounded Language Understanding in a Collaborative Environment
by Interacting with Agents Through Help Feedback [42.19685958922537]
我々は、人間とAIのコラボレーションは対話的であり、人間がAIエージェントの作業を監視し、エージェントが理解し活用できるフィードバックを提供するべきだと論じている。
本研究では, IGLUコンペティションによって定義された課題である, マイニングクラフトのような世界における対話型言語理解タスクを用いて, これらの方向を探索する。
論文 参考訳(メタデータ) (2023-04-21T05:37:59Z) - CAMEL: Communicative Agents for "Mind" Exploration of Large Language
Model Society [58.04479313658851]
本稿では,コミュニケーションエージェント間の自律的協調を支援するスケーラブルな手法の構築の可能性について検討する。
本稿では,ロールプレイングという新しいコミュニケーションエージェントフレームワークを提案する。
コントリビューションには、新しいコミュニケーティブエージェントフレームワークの導入、マルチエージェントシステムの協調行動や能力を研究するためのスケーラブルなアプローチの提供などが含まれます。
論文 参考訳(メタデータ) (2023-03-31T01:09:00Z) - Automated Interactive Domain-Specific Conversational Agents that
Understand Human Dialogs [4.212937192948915]
大規模言語モデル(LLM)は、文の意味を真に理解するのではなく、パターンマッチングに依存している。
確実に正しい応答を生成するには、文の意味を「理解」する必要がある。
ASPを利用したAutoConciergeシステムについて述べる。
論文 参考訳(メタデータ) (2023-03-15T21:10:33Z) - Can You be More Social? Injecting Politeness and Positivity into
Task-Oriented Conversational Agents [60.27066549589362]
人間エージェントが使用する社会言語は、ユーザーの応答性の向上とタスク完了に関連しています。
このモデルは、ソーシャル言語理解要素で拡張されたシーケンスからシーケンスまでのディープラーニングアーキテクチャを使用する。
人的判断と自動言語尺度の両方を用いたコンテンツ保存と社会言語レベルの評価は,エージェントがより社会的に適切な方法でユーザの問題に対処できる応答を生成できることを示している。
論文 参考訳(メタデータ) (2020-12-29T08:22:48Z) - RMM: A Recursive Mental Model for Dialog Navigation [102.42641990401735]
言語誘導ロボットは、人間の質問と答えの理解の両方を行なわなければならない。
心の理論から着想を得た再帰的メンタルモデル(RMM)を提案する。
我々は、RMMが新しい環境へのより良い一般化を可能にすることを実証する。
論文 参考訳(メタデータ) (2020-05-02T06:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。