論文の概要: Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation
- arxiv url: http://arxiv.org/abs/2602.07673v1
- Date: Sat, 07 Feb 2026 19:39:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.754829
- Title: Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation
- Title(参考訳): 人間の触覚に盲目:LLMによる概要評価におけるオーバーラップバイアス
- Authors: Jiangnan Fang, Cheng-Tse Liu, Hanieh Deilamsalehy, Nesreen K. Ahmed, Puneet Mathur, Nedim Lipka, Franck Dernoncourt, Ryan A. Rossi,
- Abstract要約: 大規模言語モデル(LLM)の判断は、要約のようなタスクのために、伝統的なアルゴリズムベースのメトリクスと併用されることが多い。
要約領域における人書き応答と重なる関数としてLLM判定バイアス分析を提案する。
- 参考スコア(独自算出の注目度): 89.52571224447111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) judges have often been used alongside traditional, algorithm-based metrics for tasks like summarization because they better capture semantic information, are better at reasoning, and are more robust to paraphrasing. However, LLM judges show biases for length and order among others, and are vulnerable to various adversarial input prompts. While recent studies have looked into these biases, few have analyzed them at a more granular level in relation to a well-defined overlap metric. In this work we provide an LLM judge bias analysis as a function of overlap with human-written responses in the domain of summarization. We test 9 recent LLMs with parameter counts ranging from 1 billion to 12 billion, including variants of Gemma 3 and LLaMA 3. We find that LLM judges increasingly prefer summaries generated by other LLMs over those written by humans as the similarities (as measured by ROUGE and BLEU) between the judged summaries decrease, and this pattern extends to all but one model tested, and exists regardless of the models' own position biases. Additionally, we find that models struggle to judge even summaries with limited overlaps, suggesting that LLM-as-a-judge in the summary domain should rely on techniques beyond a simple comparison.
- Abstract(参考訳): 大規模言語モデル(LLM)の判断は、要約のようなタスクのために伝統的なアルゴリズムベースのメトリクスと併用されることが多い。
しかし、LSMの判断は長さや順序の偏りを示し、様々な逆入力のプロンプトに弱い。
最近の研究では、これらのバイアスについて調べられているが、十分に定義された重なり合う測定値に関連して、より粒度の高いレベルで分析しているものはほとんどない。
本研究は,要約領域における人文応答と重なる関数としてLLM判定バイアス解析を提供する。
Gemma 3 と LLaMA 3 の変種を含む,パラメータ数が 10 億から 12 億の最近の LLM 9 を検証した。
LLMの審査員は、判定された要約間の類似性(ROUGEとBLEUの測定値)が減少するにつれて、人間が書いたものよりも、他のLCMが生成するサマリーの方が好まれることに気付き、このパターンは試験された1つのモデルを除いて拡張され、モデル自身の位置バイアスによらず存在する。
さらに,要約領域におけるLCM-as-a-judgeは,単純な比較以上の手法に頼るべきであることが示唆された。
関連論文リスト
- Evaluating how LLM annotations represent diverse views on contentious topics [3.405231040967506]
生成型大規模言語モデル (LLM) は, 同一データセット内の同じ階層カテゴリーにおいて, 同一方向のバイアスを受ける傾向があることを示す。
自動データアノテーションタスクにLLMを用いた研究者や実践者にとっての意義について論じる。
論文 参考訳(メタデータ) (2025-03-29T22:53:15Z) - REPA: Russian Error Types Annotation for Evaluating Text Generation and Judgment Capabilities [45.00513157371274]
我々は、ロシア語で大言語モデルを審査員として使用する枠組みを評価した。
人選好に基づく3つの評価システムを用いて, エラータイプ別に6つの生成LDMをランク付けする。
以上の結果から,LLM判定におけるロシア語と英語の差が顕著であった。
論文 参考訳(メタデータ) (2025-03-17T12:15:16Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - Language Model Council: Democratically Benchmarking Foundation Models on Highly Subjective Tasks [3.58262772907022]
言語モデル協議会(LMC: Language Model Council)では、LLMのグループが協力してテストを作成し、それに反応し、相互の反応を評価して、民主的な方法でランキングを作成する。
感情的インテリジェンスに関する詳細なケーススタディでは、対人対立に対するオープン・エンド・レスポンスにおいて、20の最近のLCMを相互にランク付けするために配置する。
以上の結果から, LMCは, より分離性が高く, より堅牢なランキングを作成でき, ユーザスタディにより, 個々のLCM審査員よりも人的評価に整合性があることが示唆された。
論文 参考訳(メタデータ) (2024-06-12T19:05:43Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。