論文の概要: Evaluating the Utility of Grounding Documents with Reference-Free LLM-based Metrics
- arxiv url: http://arxiv.org/abs/2601.23129v1
- Date: Fri, 30 Jan 2026 16:17:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.54779
- Title: Evaluating the Utility of Grounding Documents with Reference-Free LLM-based Metrics
- Title(参考訳): 基準自由LLMメトリクスによる接地文書の有用性評価
- Authors: Yilun Hua, Giuseppe Castellucci, Peter Schulam, Heba Elfardy, Kevin Small,
- Abstract要約: グラウンドイングジェネレーションユーティリティ(GroGU)は、エントロピーに基づく下流LLMの生成信頼度関数としてユーティリティを定義するモデル固有のメトリクスである。
実験では、平均相反ランクで最大18.2ポイント、解答精度で最大9.4ポイントの改善が示されている。
- 参考スコア(独自算出の注目度): 8.474659554619478
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Retrieval Augmented Generation (RAG)'s success depends on the utility the LLM derives from the content used for grounding. Quantifying content utility does not have a definitive specification and existing metrics ignore model-specific capabilities and/or rely on costly annotations. In this paper, we propose Grounding Generation Utility (GroGU), a model-specific and reference-free metric that defines utility as a function of the downstream LLM's generation confidence based on entropy. Despite having no annotation requirements, GroGU is largely faithful in distinguishing ground-truth documents while capturing nuances ignored by LLM-agnostic metrics. We apply GroGU to train a query-rewriter for RAG by identifying high-utility preference data for Direct Preference Optimization. Experiments show improvements by up to 18.2 points in Mean Reciprocal Rank and up to 9.4 points in answer accuracy.
- Abstract(参考訳): Retrieval Augmented Generation (RAG)の成功は、LLMがグラウンドングに使用するコンテンツから派生したユーティリティに依存する。
コンテンツユーティリティの定量化は明確な仕様を持っておらず、既存のメトリクスはモデル固有の機能を無視したり、コストのかかるアノテーションに依存したりする。
本稿では,モデル固有かつ参照不要な指標であるグラウンドイング生成ユーティリティ(GroGU)を,エントロピーに基づく下流LLMの生成信頼度関数として定義する。
アノテーションの要求がないにもかかわらず、GroGUはLLMに依存しないメトリクスで無視されるニュアンスを捉えながら、基盤となる真実の文書を区別することに忠実である。
我々はGroGUを用いて、直接選好最適化のための高ユーティリティ選好データを識別し、RAGのためのクエリ・リライターを訓練する。
実験では、平均相反ランクで最大18.2ポイント、解答精度で最大9.4ポイントの改善が示されている。
関連論文リスト
- Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - ChunkRAG: Novel LLM-Chunk Filtering Method for RAG Systems [2.8692611791027893]
Retrieval-Augmented Generation (RAG) システムは、無関係またはゆるい関連情報の検索によって不正確な応答を生成する。
チャンクレベルで取得した情報を評価・フィルタリングすることでRAGシステムを強化するフレームワークであるChunkRAGを提案する。
論文 参考訳(メタデータ) (2024-10-25T14:07:53Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Ground Every Sentence: Improving Retrieval-Augmented LLMs with Interleaved Reference-Claim Generation [51.8188846284153]
分散テキスト生成(ATG)は,RAGシステムにおける信頼性と妥当性を高めるために提案される。
本稿では,参照と回答を段階的に交互に生成する詳細なATG手法であるReClaimを提案する。
広範囲な実験により,ReClaimの有効性が検証され,90%の引用精度が得られた。
論文 参考訳(メタデータ) (2024-07-01T20:47:47Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。