論文の概要: MPCEval: A Benchmark for Multi-Party Conversation Generation
- arxiv url: http://arxiv.org/abs/2603.04969v1
- Date: Thu, 05 Mar 2026 09:07:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.154854
- Title: MPCEval: A Benchmark for Multi-Party Conversation Generation
- Title(参考訳): MPCEval: 多人数会話生成のためのベンチマーク
- Authors: Minxing Zhang, Yi Yang, Zhuofan Jia, Xuan Yang, Jian Pei, Yuchen Zang, Xingwang Deng, Xianglong Chen,
- Abstract要約: マルチパーティ会話生成のためのタスク認識評価およびベンチマークスイートであるMPCEvalを紹介する。
MPCEvalは生成品質を、話者モデリング、コンテンツ品質、話者一貫性に分解する。
我々は,MPCEvalを多種多様な公開および実世界のデータセットに適用し,人間による会話と並行して現代的な生成手法を評価する。
- 参考スコア(独自算出の注目度): 23.227067535888768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-party conversation generation, such as smart reply and collaborative assistants, is an increasingly important capability of generative AI, yet its evaluation remains a critical bottleneck. Compared to two-party dialogue, multi-party settings introduce distinct challenges, including complex turn-taking, role-dependent speaker behavior, long-range conversational structure, and multiple equally valid continuations. Accordingly, we introduce MPCEval, a task-aware evaluation and benchmarking suite for multi-party conversation generation. MPCEval decomposes generation quality into speaker modeling, content quality, and speaker--content consistency, and explicitly distinguishes local next-turn prediction from global full-conversation generation. It provides novel, quantitative, reference-free, and reproducible metrics that scale across datasets and models. We apply MPCEval to diverse public and real-world datasets and evaluate modern generation methods alongside human-authored conversations. The results reveal systematic, dimension-specific model characteristics in participation balance, content progression and novelty, and speaker--content consistency, demonstrating that evaluation objectives critically shape model assessment and that single-score evaluation obscures fundamental differences in multi-party conversational behavior. The implementation of MPCEval and the associated evaluation code are publicly available at https://github.com/Owen-Yang-18/MPCEval.
- Abstract(参考訳): スマートリプライやコラボレーティブアシスタントといった多人数会話生成は、生成AIの重要な能力としてますます重要になっているが、その評価は依然として重要なボトルネックである。
双方向の対話と比較すると、複雑なターンテイク、役割に依存した話者の振る舞い、長距離の会話構造、複数の等価な継続など、さまざまな課題が導入されている。
そこで,多人数会話生成のためのタスク認識評価・ベンチマークスイートMPCEvalを紹介する。
MPCEvalは、生成品質を話者モデリング、コンテンツ品質、話者一貫性に分解し、局所的な次回予測とグローバルな全会話生成を明確に区別する。
データセットやモデルにまたがる、新しい、量的、参照なし、再現可能なメトリクスを提供する。
我々は,MPCEvalを多種多様な公開および実世界のデータセットに適用し,人間による会話と並行して現代的な生成手法を評価する。
その結果, 参加バランス, コンテンツ進行, 新規性, 話者コンテンツ一貫性の体系的, 次元特異的モデル特性が明らかとなり, 評価対象がモデル評価を批判的に形作ること, シングルスコア評価が多人数会話行動の基本的な相違を曖昧にすることを示した。
MPCEvalと関連する評価コードの実装はhttps://github.com/Owen-Yang-18/MPCEvalで公開されている。
関連論文リスト
- On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation [88.77441715819366]
大規模生音声で事前訓練された生成音声言語モデルは、適切な内容で音声プロンプトを継続することができる。
本稿では,グローバルトークンの難易度に代えて,多種多様な可能性・生成的評価手法を提案する。
論文 参考訳(メタデータ) (2026-01-09T22:01:56Z) - EvalTalker: Learning to Evaluate Real-Portrait-Driven Multi-Subject Talking Humans [86.21111833841684]
THQA-MTは,最初の大規模マルチ話者生成音声品質評価データセットである。
異なるマルチ話者間の知覚的不一致を分析し,12種類の歪みを同定する。
本稿では,新しいTH品質評価フレームワークであるEvalTalkerを紹介する。
論文 参考訳(メタデータ) (2025-12-01T06:56:40Z) - GrandJury: A Collaborative Machine Learning Model Evaluation Protocol for Dynamic Quality Rubrics [0.0]
生成機械学習モデルは現代のシステムの中心となり、クリエイティブな文章、要約、マルチホップ推論、コンテキスト認識対話などの応用に力を入れている。
標準的な評価体制は依然として静的なベンチマークスタイルのテストに依存しており、動的なユーザニーズや現実の進化ではなく、リーダボードスコアへの最適化を動機付けている。
GrandJuryは、動的で透明なタスク属性と人間の判断をサポートすることで、タイムデケイドアグリゲーション、完全なトレーサビリティを組み合わせた正式な評価プロトコルを導入している。
論文 参考訳(メタデータ) (2025-08-04T22:00:44Z) - A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - UniMS-RAG: A Unified Multi-source Retrieval-Augmented Generation for Personalized Dialogue Systems [43.266153244137215]
大規模言語モデル(LLM)は多くの自然言語理解および生成タスクにおいて例外的な機能を示している。
我々は、パーソナライズされた応答を3つのサブタスク(知識ソース選択、知識検索、応答生成)に分解する。
統一多ソース検索拡張生成システム(UniMS-RAG)を提案する。
論文 参考訳(メタデータ) (2024-01-24T06:50:20Z) - Harmonizing Code-mixed Conversations: Personality-assisted Code-mixed
Response Generation in Dialogues [28.49660948650183]
本稿では,対話から得られた5つの人格特性を教師なしの方法で活用し,応答生成の性能を高めることを目的とした,新しいアプローチを提案する。
これは、識別されたパーソナリティが対話コンテキストにシームレスに統合された場合の応答生成タスクにおけるROUGEとBLUEスコアの上昇に顕著である。
論文 参考訳(メタデータ) (2024-01-18T15:21:16Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - HeterMPC: A Heterogeneous Graph Neural Network for Response Generation
in Multi-Party Conversations [76.64792382097724]
We present HeterMPC, a graph-based neural network for response generation in multi-party conversation (MPCs)。
HeterMPCは、グラフ内の2種類のノードと同時に、発話とインターロケータのセマンティクスをモデル化する。
マルチホップ更新により、HeterMPCは応答生成のための会話の構造的知識を適切に活用することができる。
論文 参考訳(メタデータ) (2022-03-16T09:50:32Z) - Multi-View Sequence-to-Sequence Models with Conversational Structure for
Abstractive Dialogue Summarization [72.54873655114844]
テキスト要約は、NLPにおいて最も困難で興味深い問題の1つである。
本研究では、まず、異なる視点から構造化されていない日々のチャットの会話構造を抽出し、会話を表現するマルチビューシーケンス・ツー・シーケンスモデルを提案する。
大規模対話要約コーパスの実験により,本手法は,自動評価と人的判断の両面から,従来の最先端モデルよりも有意に優れた性能を示した。
論文 参考訳(メタデータ) (2020-10-04T20:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。