論文の概要: Topic-Specific Classifiers are Better Relevance Judges than Prompted LLMs
- arxiv url: http://arxiv.org/abs/2510.04633v1
- Date: Mon, 06 Oct 2025 09:38:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.784976
- Title: Topic-Specific Classifiers are Better Relevance Judges than Prompted LLMs
- Title(参考訳): トピック特定分類器はプロンプテッドLLMよりも関連判断に優れている
- Authors: Lukas Gienapp, Martin Potthast, Harrisen Scells, Eugene Yang,
- Abstract要約: 未判断の文書問題は、情報検索におけるテストコレクションの再利用可能性にとって重要な障害である。
個別のLoRA重み適応でMonoT5を微調整することにより、トピック固有の関連分類器を訓練する。
トピックごとの最初の128の判断は、モデルの互換性を改善するのに十分である。
- 参考スコア(独自算出の注目度): 34.14678608130442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The unjudged document problem, where pooled test collections have incomplete relevance judgments for evaluating new retrieval systems, is a key obstacle to the reusability of test collections in information retrieval. While the de facto standard to deal with the problem is to treat unjudged documents as non-relevant, many alternatives have been proposed, including the use of large language models (LLMs) as a relevance judge (LLM-as-a-judge). However, this has been criticized as circular, since the same LLM can be used as a judge and as a ranker at the same time. We propose to train topic-specific relevance classifiers instead: By finetuning monoT5 with independent LoRA weight adaptation on the judgments of a single assessor for a single topic's pool, we align it to that assessor's notion of relevance for the topic. The system rankings obtained through our classifier's relevance judgments achieve a Spearmans' $\rho$ correlation of $>0.95$ with ground truth system rankings. As little as 128 initial human judgments per topic suffice to improve the comparability of models, compared to treating unjudged documents as non-relevant, while achieving more reliability than existing LLM-as-a-judge approaches. Topic-specific relevance classifiers thus are a lightweight and straightforward way to tackle the unjudged document problem, while maintaining human judgments as the gold standard for retrieval evaluation. Code, models, and data are made openly available.
- Abstract(参考訳): プールドテストコレクションが新しい検索システムを評価するための不完全関連判断を持つという未判断の文書問題は、情報検索におけるテストコレクションの再利用可能性にとって重要な障害である。
この問題に対処するデファクトスタンダードは、未定文書を非関連として扱うことであるが、大きな言語モデル(LLM)を関連審査員(LLM-as-a-judge)として使用するなど、多くの代替案が提案されている。
しかし、同じLDMを審査員とランクラーとして同時に使用できることから、これは円形であると批判されている。
個別のLoRA重み適応でmonoT5を微調整し、単一のトピックのプールに対する単一の評価器の判断を微調整することにより、トピックに対する関連性の概念と整合する。
我々の分類器の関連判断によって得られたシステムランキングは、スピアマンズの$$\rho$と基底真理系ランキングとの相関を達成している。
従来のLCM-as-a-judgeアプローチよりも信頼性が高い一方で、未判断の文書を非関連として扱う場合と比較して、トピックごとの最初の128人の判断は、モデルのコンパラビリティを向上させるのに十分である。
したがって、トピック固有の関連分類器は、人的判断を検索評価のゴールドスタンダードとして維持しつつ、未判断の文書問題に対処するための軽量で簡単な方法である。
コード、モデル、データは公開されています。
関連論文リスト
- Variations in Relevance Judgments and the Shelf Life of Test Collections [50.060833338921945]
ニューラル検索設定における先行研究を再現し、評価者の不一致がシステムランキングに影響を及ぼさないことを示す。
我々は、新しい関係判断によって、いくつかのモデルが著しく劣化し、既にランク付け者としての人間の有効性に到達していることを観察した。
論文 参考訳(メタデータ) (2025-02-28T10:46:56Z) - Tuning LLM Judge Design Decisions for 1/1000 of the Cost [42.06346155380305]
大きな言語モデル(LLM)は、しばしば人為的なアノテーションを必要とする。
この問題に対処するため、2つのLLMの出力を比較するLLMベースの審査員が提案されている。
いくつかのアプローチが提案されているが、異なる論文の間には多くの相反する要因が存在する。
論文 参考訳(メタデータ) (2025-01-24T17:01:14Z) - JudgeBlender: Ensembling Judgments for Automatic Relevance Assessment [28.4353755578306]
大規模言語モデル(LLM)は、検索タスクの関連ラベルを生成することを約束している。
我々は,より小型のオープンソースモデルを用いて妥当性判断を行うフレームワークであるJiceBlenderを紹介した。
論文 参考訳(メタデータ) (2024-12-17T19:04:15Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。