Fugu-MT 論文翻訳(概要): Limitations of Automatic Relevance Assessments with Large Language Models for Fair and Reliable Retrieval Evaluation

論文の概要: Limitations of Automatic Relevance Assessments with Large Language Models for Fair and Reliable Retrieval Evaluation

arxiv url: http://arxiv.org/abs/2411.13212v2
Date: Tue, 08 Apr 2025 10:06:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-09 14:46:26.531598
Title: Limitations of Automatic Relevance Assessments with Large Language Models for Fair and Reliable Retrieval Evaluation
Title（参考訳）: 公正かつ信頼性の高い検索評価のための大規模言語モデルによる自動関連性評価の限界
Authors: David Otero, Javier Parapar, Álvaro Barreiro,
Abstract要約: 大規模言語モデル(LLM)は,自動関連性評価ツールとして注目されている。近年の研究では、LLMに基づく評価が、人為的判断と高いシステムランキングの相関をもたらすことが示されている。我々は,LLMによる判断が,上位評価システム間の順位差をいかに保っているか,また,人間の判断として相互に重要な評価を保っているかを検討する。
参考スコア（独自算出の注目度）: 2.9180406633632523
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Offline evaluation of search systems depends on test collections. These benchmarks provide the researchers with a corpus of documents, topics and relevance judgements indicating which documents are relevant for each topic. While test collections are an integral part of Information Retrieval (IR) research, their creation involves significant efforts in manual annotation. Large language models (LLMs) are gaining much attention as tools for automatic relevance assessment. Recent research has shown that LLM-based assessments yield high systems ranking correlation with human-made judgements. These correlations are helpful in large-scale experiments but less informative if we want to focus on top-performing systems. Moreover, these correlations ignore whether and how LLM-based judgements impact the statistically significant differences among systems with respect to human assessments. In this work, we look at how LLM-generated judgements preserve ranking differences among top-performing systems and also how they preserve pairwise significance evaluation as human judgements. Our results show that LLM-based judgements are unfair at ranking top-performing systems. Moreover, we observe an exceedingly high rate of false positives regarding statistical differences. Our work represents a step forward in the evaluation of the reliability of using LLMs-based judgements for IR evaluation. We hope this will serve as a basis for other researchers to develop more reliable models for automatic relevance assessment.
Abstract（参考訳）: 検索システムのオフライン評価はテストコレクションに依存する。これらのベンチマークは、各トピックにどのドキュメントが関係しているかを示す文書、トピック、関連性判断のコーパスを提供する。テストコレクションは情報検索(Information Retrieval, IR)研究の不可欠な部分であるが、それらの作成には手作業によるアノテーションへの多大な努力が伴う。大規模言語モデル(LLM)は,自動関連性評価ツールとして注目されている。近年の研究では、LLMに基づく評価が、人為的判断と高いシステムランキングの相関をもたらすことが示されている。これらの相関関係は大規模な実験では有効であるが、性能の高いシステムに焦点をあてたい場合、あまり有益ではない。さらに、これらの相関関係は、LLMに基づく判断が人的評価に関するシステム間の統計的に有意な差異にどのように影響するかを無視する。本研究では,LLMによる判断が上位評価システム間の順位差をいかに保つか,また,人間の判断として相互に重要な評価を保持するかを検討する。以上の結果から,LLMに基づく判断は最上位のシステムでは不公平であることが示唆された。さらに,統計的差異に関する偽陽性の頻度は,極めて高い。本研究は,LLMを用いたIR評価における信頼性評価の一歩である。これは、他の研究者が自動関連性評価のためのより信頼性の高いモデルを開発するための基盤になることを期待している。

関連論文リスト

When LLM Judges Inflate Scores: Exploring Overrating in Relevance Assessment [29.603396943658428]
大型言語モデル(LLM)は、人間の判断のためのプロキシとして使用できる。モデルは、真に基礎となる情報要求を満たさない通路に、インフレータブルな関連度スコアを常に割り当てていることを示す。実験の結果,LSMによる相対性判定は通路長や表面の語彙的手がかりに非常に敏感であることが示唆された。
論文参考訳（メタデータ） (2026-02-19T08:37:21Z)
The Effect of Document Summarization on LLM-Based Relevance Judgments [8.796251181920914]
大規模言語モデル(LLM)は、最近自動評価器として提案されている。テキスト要約がLCMに基づく判断の信頼性に与える影響について検討する。その結果,要約に基づく判断は,システムランキングの完全文書判定に匹敵する安定性を達成できることがわかった。
論文参考訳（メタデータ） (2025-12-05T00:26:13Z)
Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
フィードバックプロトコルの選択が評価信頼性に大きく影響し,系統的バイアスを生じさせることを示す。特に、ペアワイズ評価プロトコルは、不注意な評価に対してより脆弱であることを示す。
論文参考訳（メタデータ） (2025-04-20T19:05:59Z)
Re-evaluating Automatic LLM System Ranking for Alignment with Human Preference [63.03859517284341]
自動評価フレームワークは、人間の嗜好との整合性に基づいてLLMをランク付けすることを目的としている。自動LLMベンチラは、入力セット、評価モデル、評価タイプ、集約方法の4つのコンポーネントから構成される。
論文参考訳（メタデータ） (2024-12-31T17:46:51Z)
JuStRank: Benchmarking LLM Judges for System Ranking [7.507819077549208]
我々はLLM審査員をシステムランクラーとして大規模に調査した。システムスコアは、複数のシステム出力に対して判定スコアを集約することで生成される。我々の分析は、判断力や偏見を含む判断行動のきめ細かい特徴を提供する。
論文参考訳（メタデータ） (2024-12-12T18:51:13Z)
A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文参考訳（メタデータ） (2024-11-13T01:12:35Z)
Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文参考訳（メタデータ） (2024-05-02T20:42:28Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Do Large Language Models Rank Fairly? An Empirical Study on the Fairness of LLMs as Rankers [27.66626125248612]
本稿では,TREC Fair Ranking データセットを用いて,Large Language Models (LLMs) の評価実験を行った。本稿では, 歴史的に検索結果に乏しい, 性別や地理的位置などの二項保護属性の表現に焦点を当てる。我々の分析は、これらのLCMがこれらの属性に関連するクエリやドキュメントをどのように扱うのかを考察し、ランキングアルゴリズムのバイアスを明らかにすることを目的としている。
論文参考訳（メタデータ） (2024-04-04T04:23:19Z)
Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。 LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。 Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文参考訳（メタデータ） (2024-03-25T17:11:28Z)
Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文参考訳（メタデータ） (2023-11-03T14:59:54Z)
Are Large Language Models Reliable Judges? A Study on the Factuality Evaluation Capabilities of LLMs [8.526956860672698]
大きな言語モデル(LLM)は、その顕著な能力のために注目を集めている。本研究では,テキスト生成モデルにより生成された要約における事実整合性の信頼性評価としてのLCMの可能性について検討する。
論文参考訳（メタデータ） (2023-11-01T17:42:45Z)
Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2023-10-11T16:38:11Z)
Benchmarking Cognitive Biases in Large Language Models as Evaluators [16.845939677403287]
大規模言語モデル(LLM)は、簡単なプロンプトと文脈内学習を備えた自動評価器として有効であることが示されている。我々は,LLMの認知バイアスベンチマークを導入したランキングアウトプットの品質を評価対象として評価する。 LLMはテキスト品質評価器であり、バイアスベンチマークに強い指標を示す。
論文参考訳（メタデータ） (2023-09-29T06:53:10Z)
Style Over Substance: Evaluation Biases for Large Language Models [17.13064447978519]
本研究では,大規模言語モデル(LLM)とともに,クラウドソースおよびエキスパートアノテータの挙動について検討する。この結果から, 事実的誤りに対する回答は, 短すぎる, 文法的誤りを含む回答よりも好意的に評価され, 評価過程の偏りが示唆された。評価面を1つのスコアにマージするのではなく,複数の次元にまたがるマシン生成テキストを独立に評価することを提案する。
論文参考訳（メタデータ） (2023-07-06T14:42:01Z)
Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文参考訳（メタデータ） (2023-04-13T13:08:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。