Fugu-MT 論文翻訳(概要): DialFRED: Dialogue-Enabled Agents for Embodied Instruction Following

論文の概要: DialFRED: Dialogue-Enabled Agents for Embodied Instruction Following

arxiv url: http://arxiv.org/abs/2202.13330v1
Date: Sun, 27 Feb 2022 09:50:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-01 17:16:34.437661
Title: DialFRED: Dialogue-Enabled Agents for Embodied Instruction Following
Title（参考訳）: DialFRED: 感染予防のための対話型エージェント
Authors: Xiaofeng Gao, Qiaozi Gao, Ran Gong, Kaixiang Lin, Govind Thattai, Gaurav S. Sukhatme
Abstract要約: ALFREDベンチマークに基づく対話型エンボディドインストラクションであるDialFREDを提案する。 53Kのタスク関連質問と回答と,質問に回答するためのオラクルを備えた,人間注釈付きデータセットをリリースする。
参考スコア（独自算出の注目度）: 25.73783062207812
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language-guided Embodied AI benchmarks requiring an agent to navigate an environment and manipulate objects typically allow one-way communication: the human user gives a natural language command to the agent, and the agent can only follow the command passively. We present DialFRED, a dialogue-enabled embodied instruction following benchmark based on the ALFRED benchmark. DialFRED allows an agent to actively ask questions to the human user; the additional information in the user's response is used by the agent to better complete its task. We release a human-annotated dataset with 53K task-relevant questions and answers and an oracle to answer questions. To solve DialFRED, we propose a questioner-performer framework wherein the questioner is pre-trained with the human-annotated data and fine-tuned with reinforcement learning. We make DialFRED publicly available and encourage researchers to propose and evaluate their solutions to building dialog-enabled embodied agents.
Abstract（参考訳）: 言語誘導型具体化されたaiベンチマークでは、エージェントが環境をナビゲートし、オブジェクトを操作する必要がある。 ALFREDベンチマークに基づく対話型エンボディドインストラクションであるDialFREDを提案する。 DialFREDは、エージェントが人間のユーザに対して積極的に質問することを可能にする。 53Kのタスク関連質問と回答と,質問に回答するためのオラクルを備えた,人間注釈付きデータセットをリリースする。 DialFREDを解くために,質問者は人手による注釈付きデータで事前学習され,強化学習で微調整される質問者・実行者フレームワークを提案する。 dialfredを一般公開し、ダイアログ対応の具体化エージェント構築のためのソリューションの提案と評価を研究者に促す。

関連論文リスト

Program Synthesis Dialog Agents for Interactive Decision-Making [15.76727860626721]
本研究では,インタラクティブな意思決定を通じて,社会的利益の機会に対するユーザの適性を決定するための新しいベンチマークであるBeNYfitsを提案する。実験の結果, GPT-4o は ReAct-style chain-of- Thought を用いて35.7 F1 しか得点できなかった。我々のエージェントであるProADAは、ほぼ同じ数のダイアログターンを維持しながら、F1スコアを55.6に改善します。
論文参考訳（メタデータ） (2025-02-26T22:53:01Z)
YETI (YET to Intervene) Proactive Interventions by Multimodal AI Agents in Augmented Reality Tasks [16.443149180969776]
Augmented Reality (AR)ヘッドウェアは、日々の手続き的なタスクを解く際のユーザエクスペリエンスを一意に改善することができる。このようなAR機能は、AIエージェントがユーザーのマルチモーダル機能に関連するアクションを見て耳を傾けるのに役立つ。一方、AIエージェントのプロアクティビティは、人間が観察されたタスクのミスを検出し、修正するのに役立つ。
論文参考訳（メタデータ） (2025-01-16T08:06:02Z)
Collaborative Instance Object Navigation: Leveraging Uncertainty-Awareness to Minimize Human-Agent Dialogues [54.81155589931697]
協調インスタンスオブジェクトナビゲーション(CoIN)は、エージェントがターゲットインスタンスに関する不確実性を積極的に解決する新しいタスク設定である。未認識者に対するエージェント・ユーザインタラクション(AIUTA)の新たな学習自由化手法を提案する。まず、オブジェクト検出時に、セルフクエチオナーモデルがエージェント内で自己対話を開始し、完全かつ正確な観察記述を得る。インタラクショントリガーモジュールは、人間に質問するか、継続するか、ナビゲーションを停止するかを決定する。
論文参考訳（メタデータ） (2024-12-02T08:16:38Z)
ReSpAct: Harmonizing Reasoning, Speaking, and Acting Towards Building Large Language Model-Based Conversational AI Agents [11.118991548784459]
大規模言語モデル(LLM)ベースのエージェントは、ますます外部環境との対話に使われている。現在のフレームワークでは、これらのエージェントがユーザと対話してタスクの詳細を調整できない。この作業では、タスク指向の"会話型"エージェントを構築する上で不可欠なスキルを組み合わせた、新しいフレームワークであるReSpActを紹介します。
論文参考訳（メタデータ） (2024-11-01T15:57:45Z)
Simulating User Agents for Embodied Conversational-AI [9.402740034754455]
我々は,エンボディエージェントとのインタラクション中にユーザ動作をシミュレート可能な,LLMベースのユーザエージェントを構築した。シミュレーション対話をTEAChデータセットと比較することにより,ユーザエージェントの人間的行動生成能力を評価する。
論文参考訳（メタデータ） (2024-10-31T00:56:08Z)
SECURE: Semantics-aware Embodied Conversation under Unawareness for Lifelong Robot Learning [17.125080112897102]
本稿では,無意識下での再配置と呼ぶ対話型タスク学習シナリオについて論じる。エージェントは、タスクの解決に必要な重要な概念を知らずに剛体環境を操作し、デプロイメント中にそれについて学ぶ必要がある。本稿では,このようなシナリオに対処するための対話型タスク学習ポリシーSECUREを紹介する。
論文参考訳（メタデータ） (2024-09-26T11:40:07Z)
ClarQ-LLM: A Benchmark for Models Clarifying and Requesting Information in Task-Oriented Dialog [11.585398152713505]
ClarQ-LLMは、バイリンガルな英語と中国語の会話タスク、会話エージェント、評価指標からなる評価フレームワークである。ベンチマークには31の異なるタスクタイプが含まれており、それぞれに情報検索者とプロバイダエージェント間の10のユニークな対話シナリオがある。固定された対話コンテンツに基づいてエージェントを評価する従来のベンチマークとは異なり、ClarQ-LLMには、元のヒューマンプロバイダを複製するプロバイダ対話エージェントが含まれている。
論文参考訳（メタデータ） (2024-09-09T22:29:35Z)
ProductAgent: Benchmarking Conversational Product Search Agent with Asking Clarification Questions [68.81939215223818]
ProductAgentは,戦略的明確化質問生成機能と動的製品検索機能を備えた対話情報探索エージェントである。我々は,製品特徴の要約,クエリ生成,製品検索のための戦略を持ったエージェントを開発する。実験の結果,ProductAgentはユーザとポジティブに対話し,対話のターンの増加に伴う検索性能の向上を図っている。
論文参考訳（メタデータ） (2024-07-01T03:50:23Z)
Beyond Static Evaluation: A Dynamic Approach to Assessing AI Assistants' API Invocation Capabilities [48.922660354417204]
人間の関与なしにアシスタントのAPIコール能力を評価するために,自動動的評価(Automated Dynamic Evaluation, AutoDE)を提案する。この枠組みでは,人間と機械の相互作用において,真の人間の会話パターンを忠実に反映するように努力する。
論文参考訳（メタデータ） (2024-03-17T07:34:12Z)
Tell Me More! Towards Implicit User Intention Understanding of Language Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。 Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文参考訳（メタデータ） (2024-02-14T14:36:30Z)
Improving Grounded Language Understanding in a Collaborative Environment by Interacting with Agents Through Help Feedback [42.19685958922537]
我々は、人間とAIのコラボレーションは対話的であり、人間がAIエージェントの作業を監視し、エージェントが理解し活用できるフィードバックを提供するべきだと論じている。本研究では, IGLUコンペティションによって定義された課題である, マイニングクラフトのような世界における対話型言語理解タスクを用いて, これらの方向を探索する。
論文参考訳（メタデータ） (2023-04-21T05:37:59Z)
CAMEL: Communicative Agents for "Mind" Exploration of Large Language Model Society [58.04479313658851]
本稿では,コミュニケーションエージェント間の自律的協調を支援するスケーラブルな手法の構築の可能性について検討する。本稿では,ロールプレイングという新しいコミュニケーションエージェントフレームワークを提案する。コントリビューションには、新しいコミュニケーティブエージェントフレームワークの導入、マルチエージェントシステムの協調行動や能力を研究するためのスケーラブルなアプローチの提供などが含まれます。
論文参考訳（メタデータ） (2023-03-31T01:09:00Z)
Automated Interactive Domain-Specific Conversational Agents that Understand Human Dialogs [4.212937192948915]
大規模言語モデル(LLM)は、文の意味を真に理解するのではなく、パターンマッチングに依存している。確実に正しい応答を生成するには、文の意味を「理解」する必要がある。 ASPを利用したAutoConciergeシステムについて述べる。
論文参考訳（メタデータ） (2023-03-15T21:10:33Z)
Can You be More Social? Injecting Politeness and Positivity into Task-Oriented Conversational Agents [60.27066549589362]
人間エージェントが使用する社会言語は、ユーザーの応答性の向上とタスク完了に関連しています。このモデルは、ソーシャル言語理解要素で拡張されたシーケンスからシーケンスまでのディープラーニングアーキテクチャを使用する。人的判断と自動言語尺度の両方を用いたコンテンツ保存と社会言語レベルの評価は,エージェントがより社会的に適切な方法でユーザの問題に対処できる応答を生成できることを示している。
論文参考訳（メタデータ） (2020-12-29T08:22:48Z)
RMM: A Recursive Mental Model for Dialog Navigation [102.42641990401735]
言語誘導ロボットは、人間の質問と答えの理解の両方を行なわなければならない。心の理論から着想を得た再帰的メンタルモデル(RMM)を提案する。我々は、RMMが新しい環境へのより良い一般化を可能にすることを実証する。
論文参考訳（メタデータ） (2020-05-02T06:57:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。