論文の概要: DialFRED: Dialogue-Enabled Agents for Embodied Instruction Following
- arxiv url: http://arxiv.org/abs/2202.13330v1
- Date: Sun, 27 Feb 2022 09:50:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 17:16:34.437661
- Title: DialFRED: Dialogue-Enabled Agents for Embodied Instruction Following
- Title(参考訳): DialFRED: 感染予防のための対話型エージェント
- Authors: Xiaofeng Gao, Qiaozi Gao, Ran Gong, Kaixiang Lin, Govind Thattai,
Gaurav S. Sukhatme
- Abstract要約: ALFREDベンチマークに基づく対話型エンボディドインストラクションであるDialFREDを提案する。
53Kのタスク関連質問と回答と,質問に回答するためのオラクルを備えた,人間注釈付きデータセットをリリースする。
- 参考スコア(独自算出の注目度): 25.73783062207812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-guided Embodied AI benchmarks requiring an agent to navigate an
environment and manipulate objects typically allow one-way communication: the
human user gives a natural language command to the agent, and the agent can
only follow the command passively. We present DialFRED, a dialogue-enabled
embodied instruction following benchmark based on the ALFRED benchmark.
DialFRED allows an agent to actively ask questions to the human user; the
additional information in the user's response is used by the agent to better
complete its task. We release a human-annotated dataset with 53K task-relevant
questions and answers and an oracle to answer questions. To solve DialFRED, we
propose a questioner-performer framework wherein the questioner is pre-trained
with the human-annotated data and fine-tuned with reinforcement learning. We
make DialFRED publicly available and encourage researchers to propose and
evaluate their solutions to building dialog-enabled embodied agents.
- Abstract(参考訳): 言語誘導型具体化されたaiベンチマークでは、エージェントが環境をナビゲートし、オブジェクトを操作する必要がある。
ALFREDベンチマークに基づく対話型エンボディドインストラクションであるDialFREDを提案する。
DialFREDは、エージェントが人間のユーザに対して積極的に質問することを可能にする。
53Kのタスク関連質問と回答と,質問に回答するためのオラクルを備えた,人間注釈付きデータセットをリリースする。
DialFREDを解くために,質問者は人手による注釈付きデータで事前学習され,強化学習で微調整される質問者・実行者フレームワークを提案する。
dialfredを一般公開し、ダイアログ対応の具体化エージェント構築のためのソリューションの提案と評価を研究者に促す。
関連論文リスト
- Tell Me More! Towards Implicit User Intention Understanding of Language
Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。
Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。
私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文 参考訳(メタデータ) (2024-02-14T14:36:30Z) - Synthetic Dialogue Dataset Generation using LLM Agents [7.933485970511388]
我々は,会話エージェントとして機能するエージェントと,ユーザとして機能するエージェントを2つ開発する。
ユーザが利用できるNL4Optからの線形問題に関するテキスト記述のセットを使用して、エージェントとユーザは、元の問題記述からすべてのキー情報を取得するまで会話を行う。
我々は,人間の評価指標を再現するためにGPT-4を用いた評価手法を含む,人的および自動評価を行う。
論文 参考訳(メタデータ) (2024-01-30T21:49:30Z) - Decision-Oriented Dialogue for Human-AI Collaboration [50.649196780502976]
決定指向対話と呼ばれるタスクのクラスについて説明する。そこでは、AIアシスタントが自然言語を介して1つ以上の人間と協力し、複雑な意思決定を支援する必要がある。
日常的な意思決定に直面する3つの領域を定式化し,(1)レビュアーの会議論文への課題の選択,(2)都市における複数段階の旅程の計画,(3)友人集団の旅行計画の交渉を行う。
各タスクに対して、エージェントが到達した最終決定の質に基づいて報酬を受け取る対話環境を構築する。
論文 参考訳(メタデータ) (2023-05-31T17:50:02Z) - Improving Grounded Language Understanding in a Collaborative Environment
by Interacting with Agents Through Help Feedback [42.19685958922537]
我々は、人間とAIのコラボレーションは対話的であり、人間がAIエージェントの作業を監視し、エージェントが理解し活用できるフィードバックを提供するべきだと論じている。
本研究では, IGLUコンペティションによって定義された課題である, マイニングクラフトのような世界における対話型言語理解タスクを用いて, これらの方向を探索する。
論文 参考訳(メタデータ) (2023-04-21T05:37:59Z) - CAMEL: Communicative Agents for "Mind" Exploration of Large Language
Model Society [58.04479313658851]
本稿では,コミュニケーションエージェント間の自律的協調を支援するスケーラブルな手法の構築の可能性について検討する。
本稿では,ロールプレイングという新しいコミュニケーションエージェントフレームワークを提案する。
コントリビューションには、新しいコミュニケーティブエージェントフレームワークの導入、マルチエージェントシステムの協調行動や能力を研究するためのスケーラブルなアプローチの提供などが含まれます。
論文 参考訳(メタデータ) (2023-03-31T01:09:00Z) - Automated Interactive Domain-Specific Conversational Agents that
Understand Human Dialogs [4.212937192948915]
大規模言語モデル(LLM)は、文の意味を真に理解するのではなく、パターンマッチングに依存している。
確実に正しい応答を生成するには、文の意味を「理解」する必要がある。
ASPを利用したAutoConciergeシステムについて述べる。
論文 参考訳(メタデータ) (2023-03-15T21:10:33Z) - ASQ-IT: Interactive Explanations for Reinforcement-Learning Agents [7.9603223299524535]
本稿では,ユーザが興味のある行動の時間的特性を記述したクエリに基づいて,その環境に作用するエージェントのビデオクリップを提示する対話型ツールASQ-ITを提案する。
提案手法は,ASQ-ITのユーザインタフェースのクエリを有限トレース(LTLf)上の線形時間論理の断片にマッピングする形式的手法に基づいており,クエリ処理のアルゴリズムはオートマチック理論に基づいている。
論文 参考訳(メタデータ) (2023-01-24T11:57:37Z) - INSCIT: Information-Seeking Conversations with Mixed-Initiative
Interactions [47.90088587508672]
InSCItは、混合開始型インタラクションによる情報探索会話のためのデータセットである。
ユーザーエージェントは805対人会話から4.7Kである。
対話型知識認識とオープンドメイン質問応答の最先端モデルに基づく2つのシステムの結果を報告する。
論文 参考訳(メタデータ) (2022-07-02T06:18:12Z) - Can You be More Social? Injecting Politeness and Positivity into
Task-Oriented Conversational Agents [60.27066549589362]
人間エージェントが使用する社会言語は、ユーザーの応答性の向上とタスク完了に関連しています。
このモデルは、ソーシャル言語理解要素で拡張されたシーケンスからシーケンスまでのディープラーニングアーキテクチャを使用する。
人的判断と自動言語尺度の両方を用いたコンテンツ保存と社会言語レベルの評価は,エージェントがより社会的に適切な方法でユーザの問題に対処できる応答を生成できることを示している。
論文 参考訳(メタデータ) (2020-12-29T08:22:48Z) - RMM: A Recursive Mental Model for Dialog Navigation [102.42641990401735]
言語誘導ロボットは、人間の質問と答えの理解の両方を行なわなければならない。
心の理論から着想を得た再帰的メンタルモデル(RMM)を提案する。
我々は、RMMが新しい環境へのより良い一般化を可能にすることを実証する。
論文 参考訳(メタデータ) (2020-05-02T06:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。