Fugu-MT 論文翻訳(概要): Measuring the Robustness of Reference-Free Dialogue Evaluation Systems

論文の概要: Measuring the Robustness of Reference-Free Dialogue Evaluation Systems

arxiv url: http://arxiv.org/abs/2501.06728v1
Date: Sun, 12 Jan 2025 06:41:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-14 21:19:24.935439
Title: Measuring the Robustness of Reference-Free Dialogue Evaluation Systems
Title（参考訳）: 基準自由対話評価システムのロバスト性測定
Authors: Justin Vasselli, Adam Nohejl, Taro Watanabe,
Abstract要約: 敵攻撃の4つのカテゴリに対して,参照自由対話メトリクスの堅牢性を評価するためのベンチマークを示す。 DialogRPT、UniEval、PromptEvalなどのメトリクスを、地上および地下のデータセットで分析する。
参考スコア（独自算出の注目度）: 12.332146893333952
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Advancements in dialogue systems powered by large language models (LLMs) have outpaced the development of reliable evaluation metrics, particularly for diverse and creative responses. We present a benchmark for evaluating the robustness of reference-free dialogue metrics against four categories of adversarial attacks: speaker tag prefixes, static responses, ungrammatical responses, and repeated conversational context. We analyze metrics such as DialogRPT, UniEval, and PromptEval -- a prompt-based method leveraging LLMs -- across grounded and ungrounded datasets. By examining both their correlation with human judgment and susceptibility to adversarial attacks, we find that these two axes are not always aligned; metrics that appear to be equivalent when judged by traditional benchmarks may, in fact, vary in their scores of adversarial responses. These findings motivate the development of nuanced evaluation frameworks to address real-world dialogue challenges.
Abstract（参考訳）: 大規模言語モデル(LLM)を利用した対話システムの進歩は、信頼性の高い評価指標の開発、特に多様で創造的な応答において、より大きくなっている。本稿では、話者タグプレフィックス、静的応答、非文法応答、繰り返し会話コンテキストの4つのカテゴリに対して、参照不要対話メトリクスの堅牢性を評価するためのベンチマークを示す。私たちは、LLMを活用したプロンプトベースのメソッドであるDialogRPT、UniEval、PromptEvalといったメトリクスを、グラウンドドデータセットとアングラウンドドデータセットで分析します。人間の判断と敵の攻撃に対する感受性の相関を調べた結果、これらの2つの軸は必ずしも一致していないことが判明した。これらの知見は,現実世界の対話課題に対処するニュアンス評価フレームワークの開発を動機付けている。

関連論文リスト

TD-EVAL: Revisiting Task-Oriented Dialogue Evaluation by Combining Turn-Level Precision with Dialogue-Level Comparisons [11.961955016373379]
TD-EVAL (Turn and Dialogue-level Evaluation) は2段階評価フレームワークであり、詳細なターンレベル解析を総合的な対話レベル比較と統合する。 TD-EVALは,従来の測定値の誤りを効果的に識別することを示す。また、従来の言語モデルや大規模言語モデルに基づくメトリクスよりも、人間の判断との整合性も向上している。
論文参考訳（メタデータ） (2025-04-28T16:57:17Z)
Beyond Single-Sentence Prompts: Upgrading Value Alignment Benchmarks with Dialogues and Stories [14.605576275135522]
大規模言語モデル(LLM)の価値アライメントを評価することは、伝統的に単一文の逆のプロンプトに依存してきた。マルチターン対話と物語に基づくシナリオを組み込むことで,単一文プロンプトを超越した値アライメントベンチマークを提案する。
論文参考訳（メタデータ） (2025-03-28T03:31:37Z)
Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要な会話動作を体系的に評価するベンチマークである。音声対話のモデリングを推進し、よりインタラクティブで自然な対話システムの開発を促進することを目的としている。
論文参考訳（メタデータ） (2025-03-06T18:59:16Z)
CausalScore: An Automatic Reference-Free Metric for Assessing Response Relevance in Open-Domain Dialogue Systems [43.5428962271088]
本稿では,対話履歴と応答の因果的強度を測定することで応答の関連性を評価する,CausalScoreと呼ばれる新しい指標を提案する。実験の結果,CausalScoreは人間の判断と整合し,既存の最先端指標を大きく上回っていることがわかった。
論文参考訳（メタデータ） (2024-06-25T06:08:16Z)
Context Does Matter: Implications for Crowdsourced Evaluation Labels in Task-Oriented Dialogue Systems [57.16442740983528]
クラウドソースラベルは、タスク指向の対話システムを評価する上で重要な役割を果たす。従来の研究では、アノテーションプロセスで対話コンテキストの一部だけを使用することが提案されている。本研究では,対話文脈がアノテーション品質に及ぼす影響について検討する。
論文参考訳（メタデータ） (2024-04-15T17:56:39Z)
PairEval: Open-domain Dialogue Evaluation with Pairwise Comparison [38.03304773600225]
PairEvalは、異なる会話における応答と品質を比較して応答を評価するための、新しい対話評価指標である。 PairEvalは基準値よりも人間の判断と高い相関を示すことを示す。また,提案手法は,オープンドメイン対話システムからの共通障害の検出において,より堅牢であることがわかった。
論文参考訳（メタデータ） (2024-04-01T09:35:06Z)
Simple LLM Prompting is State-of-the-Art for Robust and Multilingual Dialogue Evaluation [7.767020408405403]
本稿では,既存の評価モデルの強みを生かして,大規模言語モデル(LLM)の促進という新たなパラダイムを提案する。実験により,本フレームワークは,いくつかのベンチマークにおいて,平均スピアマン相関スコアを用いて,技術結果の状態を達成していることを示す。
論文参考訳（メタデータ） (2023-08-31T15:19:28Z)
Evaluate What You Can't Evaluate: Unassessable Quality for Generated Response [56.25966921370483]
大規模な言語モデルに基づく参照不要評価器の使用には課題がある。参照なし評価器は、異なるセマンティクス応答を持つオープンな例により適している。対話応答の質を評価するため, LLM に基づく推論不要評価器の使用にはリスクがある。
論文参考訳（メタデータ） (2023-05-24T02:52:48Z)
FineD-Eval: Fine-grained Automatic Dialogue-Level Evaluation [58.46761798403072]
本稿では,3つのサブメトリックから構成され,それぞれが特定の次元を対象とする対話レベルメトリクスを提案する。サブメトリックは、新しい自己監督目的で訓練され、それぞれの次元について人間の判断と強い相関関係を示す。既存の最先端のメトリクスと比較すると、組み合わせたメトリクスは平均して16%の相対的な改善を達成している。
論文参考訳（メタデータ） (2022-10-25T08:26:03Z)
DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文参考訳（メタデータ） (2021-06-02T12:23:18Z)
Assessing Dialogue Systems with Distribution Distances [48.61159795472962]
そこで本研究では,対話と実世界の会話の分散的距離を計算し,対話システムの性能を計測する。複数の対話コーパスを用いた実験により,提案手法は既存の指標よりも人間の判断によく相関することが示された。
論文参考訳（メタデータ） (2021-05-06T10:30:13Z)
Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文参考訳（メタデータ） (2020-05-01T20:01:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。