論文の概要: ProactiveEval: A Unified Evaluation Framework for Proactive Dialogue Agents
- arxiv url: http://arxiv.org/abs/2508.20973v1
- Date: Thu, 28 Aug 2025 16:26:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.508844
- Title: ProactiveEval: A Unified Evaluation Framework for Proactive Dialogue Agents
- Title(参考訳): ProactiveEval: プロアクティブ対話エージェントのための統一評価フレームワーク
- Authors: Tianjian Liu, Fanqi Wan, Jiajian Guo, Xiaojun Quan,
- Abstract要約: 大規模言語モデル(LLM)のプロアクティブ対話機能を評価する統合フレームワークであるProactiveEvalを提案する。
このフレームワークは,プロアクティブな対話をターゲット計画と対話指導に分解し,様々な領域で評価指標を確立する。
我々は,DeepSeek-R1とClaude-3.7-Sonnetが,目標計画および対話指導タスクに優れた性能を示すことを示す。
- 参考スコア(独自算出の注目度): 29.03683444493195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proactive dialogue has emerged as a critical and challenging research problem in advancing large language models (LLMs). Existing works predominantly focus on domain-specific or task-oriented scenarios, which leads to fragmented evaluations and limits the comprehensive exploration of models' proactive conversation abilities. In this work, we propose ProactiveEval, a unified framework designed for evaluating proactive dialogue capabilities of LLMs. This framework decomposes proactive dialogue into target planning and dialogue guidance, establishing evaluation metrics across various domains. Moreover, it also enables the automatic generation of diverse and challenging evaluation data. Based on the proposed framework, we develop 328 evaluation environments spanning 6 distinct domains. Through experiments with 22 different types of LLMs, we show that DeepSeek-R1 and Claude-3.7-Sonnet exhibit exceptional performance on target planning and dialogue guidance tasks, respectively. Finally, we investigate how reasoning capabilities influence proactive behaviors and discuss their implications for future model development.
- Abstract(参考訳): プロアクティブ対話は,大規模言語モデル(LLM)の進展において,重要かつ困難な研究課題として浮上している。
既存の作業は主にドメイン固有またはタスク指向のシナリオに重点を置いており、それは断片化された評価をもたらし、モデルの積極的な会話能力の包括的な探索を制限する。
本研究では,LLMの能動的対話能力を評価するための統合フレームワークであるProactiveEvalを提案する。
このフレームワークは,プロアクティブな対話をターゲット計画と対話指導に分解し,様々な領域で評価指標を確立する。
さらに、多種多様な挑戦的な評価データの自動生成を可能にする。
提案するフレームワークに基づいて、6つの異なるドメインにまたがる328の評価環境を開発する。
22種類のLDMを用いた実験により,DeepSeek-R1とClaude-3.7-Sonnetは,それぞれ目標計画と対話指導に優れた性能を示した。
最後に,推論能力が積極的行動にどのように影響するかを考察し,今後のモデル開発におけるその影響について考察する。
関連論文リスト
- Enhancing Goal-oriented Proactive Dialogue Systems via Consistency Reflection and Correction [14.520176577205754]
モデルに依存しない2段階の一貫性反射・補正フレームワークを提案する。
整合性反射の段階では、モデルが生成した応答と対話コンテキストの相違を反映するように促される。
整合性補正の段階では、モデルは対話コンテキストとより整合性のある応答を生成する。
論文 参考訳(メタデータ) (2025-06-16T11:15:21Z) - Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。
具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。
PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2023-11-01T03:20:16Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning [53.83063435640911]
対話政策学習(DPL)は対話モデリングの重要な構成要素である。
フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。
従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
論文 参考訳(メタデータ) (2023-09-01T03:19:53Z) - Dialogue Agents 101: A Beginner's Guide to Critical Ingredients for Designing Effective Conversational Systems [29.394466123216258]
本研究は,対話エージェントの主要な特徴,対応するオープンドメインデータセット,およびこれらのデータセットをベンチマークする手法について概説する。
我々は,既存のデータセットの会話から構築された統一dIalogue dataseTであるUNITを提案する。
論文 参考訳(メタデータ) (2023-07-14T10:05:47Z) - Prompting and Evaluating Large Language Models for Proactive Dialogues:
Clarification, Target-guided, and Non-collaboration [72.04629217161656]
本研究は, 明瞭化, 目標誘導, 非協調対話の3つの側面に焦点をあてる。
LLMの能動性を高めるために,プロアクティブ・チェーン・オブ・ソート・プロンプト方式を提案する。
論文 参考訳(メタデータ) (2023-05-23T02:49:35Z) - FlowEval: A Consensus-Based Dialogue Evaluation Framework Using Segment
Act Flows [63.116280145770006]
本稿では,音声レベルからセグメントレベルへのダイアログ行為の拡張であるセグメントアクトを提案し,大規模データセットをクラウドソースする。
セグメントアクトフローを利用するために,セグメントアクションのシーケンスを評価のために,最初のコンセンサスに基づく対話評価フレームワークであるFlowEvalを開発した。
論文 参考訳(メタデータ) (2022-02-14T11:37:20Z) - Coreference Augmentation for Multi-Domain Task-Oriented Dialogue State
Tracking [3.34618986084988]
本稿では,コア参照機能を明示的にモデル化したCDST(Coreference Dialogue State Tracker)を提案する。
MultiWOZ 2.1データセットの実験結果は、提案モデルが56.47%の最先端のジョイントゴール精度を達成していることを示している。
論文 参考訳(メタデータ) (2021-06-16T11:47:29Z) - Recent Advances and Challenges in Task-oriented Dialog System [63.82055978899631]
課題指向対話システムは、学術・産業社会でますます注目を集めている。
タスク指向ダイアログシステムにおける3つの重要なトピックについて論じる。(1)低リソース環境でのダイアログモデリングを容易にするデータ効率の改善、(2)ダイアログポリシー学習のためのマルチターンダイナミクスのモデリング、(3)ダイアログモデルへのドメイン知識の統合。
論文 参考訳(メタデータ) (2020-03-17T01:34:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。