論文の概要: Statistical Multicriteria Evaluation of LLM-Generated Text
- arxiv url: http://arxiv.org/abs/2506.18082v1
- Date: Sun, 22 Jun 2025 16:08:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.736878
- Title: Statistical Multicriteria Evaluation of LLM-Generated Text
- Title(参考訳): LLM生成テキストの統計的多基準評価
- Authors: Esteban Garces Arias, Hannah Blocher, Julian Rodemann, Matthias Aßenmacher, Christoph Jansen,
- Abstract要約: 我々は、一般化支配(GSD)に基づく統計的推測のための最近提案された枠組みに適応する。
GSDは、シングルメトリック評価の不適切性、基本的な自動測定値と順序的人間の判断の不適合性、推論された統計的保証の欠如に対処する。
この枠組みを適用して、人間の生成したテキストに対して共通の復号戦略を評価することにより、統計的に有意な性能差を識別できることを実証する。
- 参考スコア(独自算出の注目度): 0.20971479389679337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessing the quality of LLM-generated text remains a fundamental challenge in natural language processing. Current evaluation approaches often rely on isolated metrics or simplistic aggregations that fail to capture the nuanced trade-offs between coherence, diversity, fluency, and other relevant indicators of text quality. In this work, we adapt a recently proposed framework for statistical inference based on Generalized Stochastic Dominance (GSD) that addresses three critical limitations in existing benchmarking methodologies: the inadequacy of single-metric evaluation, the incompatibility between cardinal automatic metrics and ordinal human judgments, and the lack of inferential statistical guarantees. The GSD-front approach enables simultaneous evaluation across multiple quality dimensions while respecting their different measurement scales, building upon partial orders of decoding strategies, thus avoiding arbitrary weighting of the involved metrics. By applying this framework to evaluate common decoding strategies against human-generated text, we demonstrate its ability to identify statistically significant performance differences while accounting for potential deviations from the i.i.d. assumption of the sampling design.
- Abstract(参考訳): LLM生成テキストの品質を評価することは、自然言語処理における根本的な課題である。
現在の評価アプローチは、コヒーレンス、多様性、流布度、その他のテキスト品質の指標の間の微妙なトレードオフを捉えるのに失敗する、孤立したメトリクスや単純な集約に依存していることが多い。
本研究では,従来のベンチマーク手法における3つの重要な制約に対処する一般確率支配(GSD)に基づく統計的推論のためのフレームワークを最近提案した。
GSD-frontアプローチは、異なる測定尺度を尊重しながら、複数の品質次元を同時に評価し、デコード戦略の部分的な順序に基づいて構築することで、関連するメトリクスの任意の重み付けを回避する。
この枠組みを人為的テキストに対する共通の復号戦略の評価に適用することにより,サンプリング設計の仮定から逸脱する可能性を考慮して,統計的に有意な性能差を識別できることを実証する。
関連論文リスト
- Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - Can We Trust the Performance Evaluation of Uncertainty Estimation Methods in Text Summarization? [28.30641958347868]
4次元にわたる31個のNLGメトリクスを包含した包括的UE-TSベンチマークを導入する。
このベンチマークは、3つのデータセット上で2つの大きな言語モデルと1つの事前訓練された言語モデルの不確実性推定能力を評価する。
本研究は,複数の非相関性NLG指標と多様な不確実性推定手法を検討することの重要性を強調した。
論文 参考訳(メタデータ) (2024-06-25T04:41:17Z) - DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and
Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。
本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。
また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-01-04T08:34:16Z) - Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。
SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文 参考訳(メタデータ) (2023-08-08T16:41:16Z) - Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文 参考訳(メタデータ) (2022-10-17T08:55:26Z) - Differential privacy and robust statistics in high dimensions [49.50869296871643]
高次元Propose-Test-Release (HPTR) は指数的メカニズム、頑健な統計、Propose-Test-Release メカニズムという3つの重要なコンポーネントの上に構築されている。
本論文では,HPTRが複数のシナリオで最適サンプル複雑性をほぼ達成していることを示す。
論文 参考訳(メタデータ) (2021-11-12T06:36:40Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。