論文の概要: The Effect of Document Summarization on LLM-Based Relevance Judgments
- arxiv url: http://arxiv.org/abs/2512.05334v1
- Date: Fri, 05 Dec 2025 00:26:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.850085
- Title: The Effect of Document Summarization on LLM-Based Relevance Judgments
- Title(参考訳): LLMに基づく関連判断における文書要約の効果
- Authors: Samaneh Mohtadi, Kevin Roitero, Stefano Mizzaro, Gianluca Demartini,
- Abstract要約: 大規模言語モデル(LLM)は、最近自動評価器として提案されている。
テキスト要約がLCMに基づく判断の信頼性に与える影響について検討する。
その結果,要約に基づく判断は,システムランキングの完全文書判定に匹敵する安定性を達成できることがわかった。
- 参考スコア(独自算出の注目度): 8.796251181920914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Relevance judgments are central to the evaluation of Information Retrieval (IR) systems, but obtaining them from human annotators is costly and time-consuming. Large Language Models (LLMs) have recently been proposed as automated assessors, showing promising alignment with human annotations. Most prior studies have treated documents as fixed units, feeding their full content directly to LLM assessors. We investigate how text summarization affects the reliability of LLM-based judgments and their downstream impact on IR evaluation. Using state-of-the-art LLMs across multiple TREC collections, we compare judgments made from full documents with those based on LLM-generated summaries of different lengths. We examine their agreement with human labels, their effect on retrieval effectiveness evaluation, and their influence on IR systems' ranking stability. Our findings show that summary-based judgments achieve comparable stability in systems' ranking to full-document judgments, while introducing systematic shifts in label distributions and biases that vary by model and dataset. These results highlight summarization as both an opportunity for more efficient large-scale IR evaluation and a methodological choice with important implications for the reliability of automatic judgments.
- Abstract(参考訳): 関連判断は、情報検索システム(IR)の評価の中心であるが、人間のアノテータからそれらを取得することは、コストと時間を要する。
大規模言語モデル(LLM)は、最近、自動アセスメントとして提案され、人間のアノテーションと将来性を示す。
ほとんどの先行研究は文書を固定単位として扱い、その全内容をLSMアセスメントに直接供給した。
テキスト要約がLCMに基づく判断の信頼性にどのように影響するか,また,その下流がIR評価に与える影響について検討する。
複数のTRECコレクションにまたがる最先端のLCMを用いて、フルドキュメントによる判断と、異なる長さのLCM生成サマリーに基づく判断を比較する。
本稿では,人間のラベルとの合意,検索の有効性評価への影響,IRシステムのランキング安定性への影響について検討する。
その結果,要約に基づく判断は,システムランキングの完全文書判定に匹敵する安定性を実現するとともに,モデルやデータセットによって異なるラベル分布やバイアスを体系的に変化させることが示唆された。
これらの結果は、より効率的な大規模IR評価の機会として、自動判断の信頼性に重要な意味を持つ方法論として、要約を強調した。
関連論文リスト
- Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
評価のためのフィードバックプロトコルの選択は,評価信頼性に大きく影響し,系統的なバイアスを生じさせることを示す。
ジェネレータモデルは、気を散らす機能を埋め込むことで好みをひっくり返すことができる。
我々は,データセットの特徴と評価目標に基づくフィードバックプロトコルの選択を推奨する。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - Rankers, Judges, and Assistants: Towards Understanding the Interplay of LLMs in Information Retrieval Evaluation [44.58099275559231]
大規模言語モデル(LLM)は、情報検索(IR)、ランキング、評価、AI支援コンテンツ作成にますます不可欠なものになっている。
本稿では,既存の研究を合成し,LLMに基づくローダとアシスタントがLLMベースの審査員にどのように影響するかを探求する新しい実験設計を提案する。
論文 参考訳(メタデータ) (2025-03-24T19:24:40Z) - Limitations of Automatic Relevance Assessments with Large Language Models for Fair and Reliable Retrieval Evaluation [2.9180406633632523]
大規模言語モデル(LLM)は,自動関連性評価ツールとして注目されている。
近年の研究では、LLMに基づく評価が、人為的判断と高いシステムランキングの相関をもたらすことが示されている。
我々は,LLMによる判断が,上位評価システム間の順位差をいかに保っているか,また,人間の判断として相互に重要な評価を保っているかを検討する。
論文 参考訳(メタデータ) (2024-11-20T11:19:35Z) - A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。
自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。
意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-13T01:12:35Z) - Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates [11.948519516797745]
LLM審査員の信頼性とアライメントを評価・比較・可視化するオープンソースフレームワークを開発した。
以上の結果から,LLM判定性能に対するプロンプトテンプレートの影響や,LLM判定器とヒト評価器の中間的なアライメントレベルに有意な影響が示唆された。
論文 参考訳(メタデータ) (2024-08-23T11:49:01Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。