論文の概要: TRUE: A Reproducible Framework for LLM-Driven Relevance Judgment in Information Retrieval
- arxiv url: http://arxiv.org/abs/2509.25602v1
- Date: Mon, 29 Sep 2025 23:58:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.963995
- Title: TRUE: A Reproducible Framework for LLM-Driven Relevance Judgment in Information Retrieval
- Title(参考訳): TRUE:情報検索におけるLLM駆動関連判断のための再現可能なフレームワーク
- Authors: Mouly Dewan, Jiqun Liu, Chirag Shah,
- Abstract要約: 関連判断生成のためのtextitTask-aware Evaluation (TRUE) を提案する。
TRUEはもともと,検索セッションにおける有用性評価のために開発された。
TRUEをTREC DL 2019, 2020, LLMJudgeデータセットで評価した。
- 参考スコア(独自算出の注目度): 11.27206971411905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based relevance judgment generation has become a crucial approach in advancing evaluation methodologies in Information Retrieval (IR). It has progressed significantly, often showing high correlation with human judgments as reflected in LLMJudge leaderboards \cite{rahmani2025judging}. However, existing methods for relevance judgments, rely heavily on sensitive prompting strategies, lacking standardized workflows for generating reliable labels. To fill this gap, we reintroduce our method, \textit{Task-aware Rubric-based Evaluation} (TRUE), for relevance judgment generation. Originally developed for usefulness evaluation in search sessions, we extend TRUE to mitigate the gap in relevance judgment due to its demonstrated effectiveness and reproducible workflow. This framework leverages iterative data sampling and reasoning to evaluate relevance judgments across multiple factors including intent, coverage, specificity, accuracy and usefulness. In this paper, we evaluate TRUE on the TREC DL 2019, 2020 and LLMJudge datasets and our results show that TRUE achieves strong performance on the system-ranking LLM leaderboards. The primary focus of this work is to provide a reproducible framework for LLM-based relevance judgments, and we further analyze the effectiveness of TRUE across multiple dimensions.
- Abstract(参考訳): LLMに基づく関連判断生成は,情報検索(IR)における評価手法の進展において重要なアプローチとなっている。
LLMJudge Leaderboards \cite{rahmani2025judging} に反映されているように、人間の判断と高い相関を示すことが多かった。
しかし、関連判断のための既存の手法は、信頼できるラベルを生成するための標準化されたワークフローが欠如しているため、センシティブなプロンプト戦略に大きく依存している。
このギャップを埋めるために、関係判定生成のための方法である「textit{Task-aware Rubric-based Evaluation} (TRUE)」を再導入する。
当初,検索セッションにおける有用性評価のために開発されたTRUEは,その実効性と再現可能なワークフローによる妥当性判定のギャップを軽減するために拡張されている。
このフレームワークは、反復的なデータサンプリングと推論を利用して、意図、カバレッジ、特異性、正確性、有用性を含む複数の要因にわたる関連判断を評価する。
本稿では,TRUE を TREC DL 2019,2020 および LLMJudge データセット上で評価し,TRUE がシステムレベルの LLM リーダーボード上で高い性能を発揮することを示す。
本研究の主な焦点は,LLMに基づく妥当性判定のための再現可能なフレームワークを提供することであり,TRUEの有効性を多次元にわたって解析することである。
関連論文リスト
- AllSummedUp: un framework open-source pour comparer les metriques d'evaluation de resume [2.2153783542347805]
本稿では,自動要約評価における課題について検討する。
6つの代表的な指標で実施した実験に基づいて,文献における報告結果と実験環境における観察結果との間に有意な相違点が認められた。
SummEvalデータセットに適用された統一されたオープンソースフレームワークを導入し、評価指標の公平かつ透明な比較をサポートするように設計されている。
論文 参考訳(メタデータ) (2025-08-29T08:05:00Z) - Criteria-Based LLM Relevance Judgments [5.478764356647438]
大規模言語モデル(LLM)は、プロンプトを通じて関連ラベルを直接生成することで、スケーラブルなソリューションを提供する。
LLMに基づく関連判断のための多基準フレームワークを提案し、関連性の概念を複数の基準に分解する。
以上の結果から,マルチクオリトリア判定はシステムランキング・リーダーボードの性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2025-07-13T04:21:21Z) - Leveraging LLMs to Evaluate Usefulness of Document [25.976948104719746]
本稿では,ユーザの検索コンテキストと行動データを大規模言語モデルに統合する,新たなユーザ中心評価フレームワークを提案する。
本研究は,文脈情報や行動情報に精通したLLMが有用性を正確に評価できることを実証する。
また,本手法で作成したラベルをユーザ満足度予測に適用し,実世界の実験により,これらのラベルが満足度予測モデルの性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-06-10T09:44:03Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - LLM-Safety Evaluations Lack Robustness [58.334290876531036]
我々は、大規模言語モデルに対する現在の安全アライメント研究は、多くのノイズ源によって妨げられていると論じる。
本研究では,将来の攻撃・防衛用紙の評価において,ノイズやバイアスを低減させる一連のガイドラインを提案する。
論文 参考訳(メタデータ) (2025-03-04T12:55:07Z) - Beyond the Numbers: Transparency in Relation Extraction Benchmark Creation and Leaderboards [5.632231145349045]
本稿では,NLPにおけるベンチマーク作成の透明性と,NLPの進捗測定におけるリーダボードの利用について検討する。
既存の関係抽出ベンチマークは、ドキュメントが不十分で重要な詳細が欠如していることが多い。
議論の中心はREベンチマークとリーダボードの透明性ですが、議論する観察は他のNLPタスクにも広く適用できます。
論文 参考訳(メタデータ) (2024-11-07T22:36:19Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Iterative Utility Judgment Framework via LLMs Inspired by Relevance in Philosophy [66.95501113584541]
ITEM(Iterative utiliTy judgm fraEntMework)を提案する。
RAGの3つの中核的構成要素は、検索モデル、ユーティリティ判断、回答生成から導かれる関連性ランキングであり、シューツの哲学的関連性体系と一致している。
実効性判定, ランキング, 回答生成におけるITEMの顕著な改善が, 代表ベースラインに基づいて示された。
論文 参考訳(メタデータ) (2024-06-17T07:52:42Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。
本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。