論文の概要: Rethinking Evaluation in Retrieval-Augmented Personalized Dialogue: A Cognitive and Linguistic Perspective
- arxiv url: http://arxiv.org/abs/2603.14217v1
- Date: Sun, 15 Mar 2026 04:36:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.676534
- Title: Rethinking Evaluation in Retrieval-Augmented Personalized Dialogue: A Cognitive and Linguistic Perspective
- Title(参考訳): 検索型パーソナライズダイアログにおける再考 : 認知的・言語学的視点
- Authors: Tianyi Zhang, David Traum,
- Abstract要約: 認知科学と言語理論では、対話は独立した発話の連鎖ではなく、一貫性、一貫性、共通理解によって維持される共同活動である。
評価手法としてパーソナライズされた対話のための顕著な検索強化フレームワークであるLAPDOGを再検討する。
- 参考スコア(独自算出の注目度): 4.313916831146957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In cognitive science and linguistic theory, dialogue is not seen as a chain of independent utterances but rather as a joint activity sustained by coherence, consistency, and shared understanding. However, many systems for open-domain and personalized dialogue use surface-level similarity metrics (e.g., BLEU, ROUGE, F1) as one of their main reporting measures, which fail to capture these deeper aspects of conversational quality. We re-examine a notable retrieval-augmented framework for personalized dialogue, LAPDOG, as a case study for evaluation methodology. Using both human and LLM-based judges, we identify limitations in current evaluation practices, including corrupted dialogue histories, contradictions between retrieved stories and persona, and incoherent response generation. Our results show that human and LLM judgments align closely but diverge from lexical similarity metrics, underscoring the need for cognitively grounded evaluation methods. Broadly, this work charts a path toward more reliable assessment frameworks for retrieval-augmented dialogue systems that better reflect the principles of natural human communication.
- Abstract(参考訳): 認知科学や言語理論では、対話は独立した発話の連鎖ではなく、一貫性、一貫性、共通の理解によって維持される共同活動と見なされる。
しかし、オープンドメインとパーソナライズされた対話のための多くのシステムは、表面レベルの類似度指標(BLEU、ROUGE、F1)を主要な評価指標の1つとして使用しており、会話品質のより深い側面を捉えていない。
評価手法としてパーソナライズされた対話のための顕著な検索強化フレームワークであるLAPDOGを再検討する。
本研究では,人間とLLMに基づく審査員の双方を用いて,会話履歴の破損,回収された物語とペルソナの矛盾,一貫性のない応答生成など,現在の評価実践の限界を明らかにする。
以上の結果から,人間とLLMの判断は密接に一致しているが,語彙的類似性尺度から逸脱し,認知的基盤的評価手法の必要性を浮き彫りにした。
この研究は、人間の自然なコミュニケーションの原則をよりよく反映した、検索強化対話システムに対する信頼性の高い評価フレームワークへの道筋を示すものである。
関連論文リスト
- Computational Analysis of Conversation Dynamics through Participant Responsivity [18.116125865284666]
応答性を定量化する手法を開発し評価する。
両手法を人間に注釈を付けた会話の真理集合に対して評価する。
次に,会話談話の様々な側面に対処するために,会話レベルの派生メトリクスを開発する。
論文 参考訳(メタデータ) (2025-09-19T23:13:13Z) - Measuring the Robustness of Reference-Free Dialogue Evaluation Systems [12.332146893333952]
敵攻撃の4つのカテゴリに対して,参照自由対話メトリクスの堅牢性を評価するためのベンチマークを示す。
DialogRPT、UniEval、PromptEvalなどのメトリクスを、地上および地下のデータセットで分析する。
論文 参考訳(メタデータ) (2025-01-12T06:41:52Z) - Don't Forget Your ABC's: Evaluating the State-of-the-Art in
Chat-Oriented Dialogue Systems [12.914512702731528]
本稿では,対話システムの挙動を推定する新しい人的評価手法を提案する。
提案手法は,4つの最先端なオープンドメイン対話システムの評価と既存手法との比較に用いられている。
論文 参考訳(メタデータ) (2022-12-18T22:07:55Z) - Dialogue Evaluation with Offline Reinforcement Learning [2.580163308334609]
タスク指向対話システムは,自然言語対話によるユーザ目標達成を目的としている。
これらは、開発フェーズのすべてのイテレーションで達成不可能な、人間のユーザによって理想的に評価されます。
静的コーパスに基づく対話評価のためのオフライン強化学習を提案する。
論文 参考訳(メタデータ) (2022-09-02T08:32:52Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z) - On the Use of Linguistic Features for the Evaluation of Generative
Dialogue Systems [17.749995931459136]
言語的特徴に基づく指標は,人間の判断と良好な相関を維持し,解釈可能であることを示唆する。
この提案を支持するために,複数の対話モデルによって生成された対話のさまざまな言語的特徴を計測し,分析する。
特徴の振る舞いはテストされたモデルの既知の特性と一致し、ドメイン間で類似していることが分かりました。
論文 参考訳(メタデータ) (2021-04-13T16:28:00Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Is this Dialogue Coherent? Learning from Dialogue Acts and Entities [82.44143808977209]
スイッチボード・コヒーレンス・コーパス(SWBD-Coh)コーパス(Switchboard Coherence corpus,SWBD-Coh)を作成する。
コーパスの統計的分析は、ターンコヒーレンス知覚がエンティティの分布パターンによってどのように影響を受けるかを示している。
DA情報とエンティティ情報を組み合わせたモデルでは,応答選択とターンコヒーレンス評価の両面で最高の性能が得られることがわかった。
論文 参考訳(メタデータ) (2020-06-17T21:02:40Z) - Dialogue-Based Relation Extraction [53.2896545819799]
本稿では,人間による対話型関係抽出(RE)データセットDialogREを提案する。
我々は,対話型タスクと従来のREタスクの類似点と相違点の分析に基づいて,提案課題において話者関連情報が重要な役割を担っていると論じる。
実験結果から,ベストパフォーマンスモデルにおける話者認識の拡張が,標準設定と会話評価設定の両方において向上することが示された。
論文 参考訳(メタデータ) (2020-04-17T03:51:57Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。