Fugu-MT 論文翻訳(概要): ProactiveEval: A Unified Evaluation Framework for Proactive Dialogue Agents

論文の概要: ProactiveEval: A Unified Evaluation Framework for Proactive Dialogue Agents

arxiv url: http://arxiv.org/abs/2508.20973v1
Date: Thu, 28 Aug 2025 16:26:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-29 18:12:02.508844
Title: ProactiveEval: A Unified Evaluation Framework for Proactive Dialogue Agents
Title（参考訳）: ProactiveEval: プロアクティブ対話エージェントのための統一評価フレームワーク
Authors: Tianjian Liu, Fanqi Wan, Jiajian Guo, Xiaojun Quan,
Abstract要約: 大規模言語モデル(LLM)のプロアクティブ対話機能を評価する統合フレームワークであるProactiveEvalを提案する。このフレームワークは,プロアクティブな対話をターゲット計画と対話指導に分解し,様々な領域で評価指標を確立する。我々は,DeepSeek-R1とClaude-3.7-Sonnetが,目標計画および対話指導タスクに優れた性能を示すことを示す。
参考スコア（独自算出の注目度）: 29.03683444493195
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Proactive dialogue has emerged as a critical and challenging research problem in advancing large language models (LLMs). Existing works predominantly focus on domain-specific or task-oriented scenarios, which leads to fragmented evaluations and limits the comprehensive exploration of models' proactive conversation abilities. In this work, we propose ProactiveEval, a unified framework designed for evaluating proactive dialogue capabilities of LLMs. This framework decomposes proactive dialogue into target planning and dialogue guidance, establishing evaluation metrics across various domains. Moreover, it also enables the automatic generation of diverse and challenging evaluation data. Based on the proposed framework, we develop 328 evaluation environments spanning 6 distinct domains. Through experiments with 22 different types of LLMs, we show that DeepSeek-R1 and Claude-3.7-Sonnet exhibit exceptional performance on target planning and dialogue guidance tasks, respectively. Finally, we investigate how reasoning capabilities influence proactive behaviors and discuss their implications for future model development.
Abstract（参考訳）: プロアクティブ対話は,大規模言語モデル(LLM)の進展において,重要かつ困難な研究課題として浮上している。既存の作業は主にドメイン固有またはタスク指向のシナリオに重点を置いており、それは断片化された評価をもたらし、モデルの積極的な会話能力の包括的な探索を制限する。本研究では,LLMの能動的対話能力を評価するための統合フレームワークであるProactiveEvalを提案する。このフレームワークは,プロアクティブな対話をターゲット計画と対話指導に分解し,様々な領域で評価指標を確立する。さらに、多種多様な挑戦的な評価データの自動生成を可能にする。提案するフレームワークに基づいて、6つの異なるドメインにまたがる328の評価環境を開発する。 22種類のLDMを用いた実験により,DeepSeek-R1とClaude-3.7-Sonnetは,それぞれ目標計画と対話指導に優れた性能を示した。最後に,推論能力が積極的行動にどのように影響するかを考察し,今後のモデル開発におけるその影響について考察する。

関連論文リスト

Plug-and-Play Policy Planner for Large Language Model Powered Dialogue Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。 PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文参考訳（メタデータ） (2023-11-01T03:20:16Z)
Self-Explanation Prompting Improves Dialogue Understanding in Large Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。 6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文参考訳（メタデータ） (2023-09-22T15:41:34Z)
Dialogue Agents 101: A Beginner's Guide to Critical Ingredients for Designing Effective Conversational Systems [29.394466123216258]
本研究は,対話エージェントの主要な特徴,対応するオープンドメインデータセット,およびこれらのデータセットをベンチマークする手法について概説する。我々は,既存のデータセットの会話から構築された統一dIalogue dataseTであるUNITを提案する。
論文参考訳（メタデータ） (2023-07-14T10:05:47Z)
Prompting and Evaluating Large Language Models for Proactive Dialogues: Clarification, Target-guided, and Non-collaboration [72.04629217161656]
本研究は, 明瞭化, 目標誘導, 非協調対話の3つの側面に焦点をあてる。 LLMの能動性を高めるために,プロアクティブ・チェーン・オブ・ソート・プロンプト方式を提案する。
論文参考訳（メタデータ） (2023-05-23T02:49:35Z)
FlowEval: A Consensus-Based Dialogue Evaluation Framework Using Segment Act Flows [63.116280145770006]
本稿では,音声レベルからセグメントレベルへのダイアログ行為の拡張であるセグメントアクトを提案し,大規模データセットをクラウドソースする。セグメントアクトフローを利用するために,セグメントアクションのシーケンスを評価のために,最初のコンセンサスに基づく対話評価フレームワークであるFlowEvalを開発した。
論文参考訳（メタデータ） (2022-02-14T11:37:20Z)
Coreference Augmentation for Multi-Domain Task-Oriented Dialogue State Tracking [3.34618986084988]
本稿では,コア参照機能を明示的にモデル化したCDST(Coreference Dialogue State Tracker)を提案する。 MultiWOZ 2.1データセットの実験結果は、提案モデルが56.47%の最先端のジョイントゴール精度を達成していることを示している。
論文参考訳（メタデータ） (2021-06-16T11:47:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。