論文の概要: Evaluating the Utility of Grounding Documents with Reference-Free LLM-based Metrics
- arxiv url: http://arxiv.org/abs/2601.23129v1
- Date: Fri, 30 Jan 2026 16:17:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.54779
- Title: Evaluating the Utility of Grounding Documents with Reference-Free LLM-based Metrics
- Title(参考訳): 基準自由LLMメトリクスによる接地文書の有用性評価
- Authors: Yilun Hua, Giuseppe Castellucci, Peter Schulam, Heba Elfardy, Kevin Small,
- Abstract要約: グラウンドイングジェネレーションユーティリティ(GroGU)は、エントロピーに基づく下流LLMの生成信頼度関数としてユーティリティを定義するモデル固有のメトリクスである。
実験では、平均相反ランクで最大18.2ポイント、解答精度で最大9.4ポイントの改善が示されている。
- 参考スコア(独自算出の注目度): 8.474659554619478
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Retrieval Augmented Generation (RAG)'s success depends on the utility the LLM derives from the content used for grounding. Quantifying content utility does not have a definitive specification and existing metrics ignore model-specific capabilities and/or rely on costly annotations. In this paper, we propose Grounding Generation Utility (GroGU), a model-specific and reference-free metric that defines utility as a function of the downstream LLM's generation confidence based on entropy. Despite having no annotation requirements, GroGU is largely faithful in distinguishing ground-truth documents while capturing nuances ignored by LLM-agnostic metrics. We apply GroGU to train a query-rewriter for RAG by identifying high-utility preference data for Direct Preference Optimization. Experiments show improvements by up to 18.2 points in Mean Reciprocal Rank and up to 9.4 points in answer accuracy.
- Abstract(参考訳): Retrieval Augmented Generation (RAG)の成功は、LLMがグラウンドングに使用するコンテンツから派生したユーティリティに依存する。
コンテンツユーティリティの定量化は明確な仕様を持っておらず、既存のメトリクスはモデル固有の機能を無視したり、コストのかかるアノテーションに依存したりする。
本稿では,モデル固有かつ参照不要な指標であるグラウンドイング生成ユーティリティ(GroGU)を,エントロピーに基づく下流LLMの生成信頼度関数として定義する。
アノテーションの要求がないにもかかわらず、GroGUはLLMに依存しないメトリクスで無視されるニュアンスを捉えながら、基盤となる真実の文書を区別することに忠実である。
我々はGroGUを用いて、直接選好最適化のための高ユーティリティ選好データを識別し、RAGのためのクエリ・リライターを訓練する。
実験では、平均相反ランクで最大18.2ポイント、解答精度で最大9.4ポイントの改善が示されている。
関連論文リスト
- LLM Unlearning using Gradient Ratio-Based Influence Estimation and Noise Injection [0.0]
既存の経験的手法は、ローカライゼーションが不十分なため、不完全な忘れ物や意図しない無関係な知識の劣化をもたらすことが多い。
GRINは、忘れデータの記憶に最も寄与するパラメータを特定するための、勾配比に基づく新しい指標を導入した。
そして、微調整の前にこれらのパラメータに選択的ノイズ注入を行い、モデルユーティリティを維持しながら学習性能を向上させる。
論文 参考訳(メタデータ) (2025-08-08T17:15:32Z) - Utility-Focused LLM Annotation for Retrieval and Retrieval-Augmented Generation [96.18720164390699]
本稿では,大規模言語モデル (LLM) を用いた検索・検索・拡張生成システム (RAG) の訓練における文書ユーティリティのアノテートについて検討する。
以上の結果から,LLM生成アノテーションは,人間のアノテーションや下流QAメトリクスのみを訓練したモデルと比較して,ドメイン外検索性能の向上とRAG結果の改善を図っている。
論文 参考訳(メタデータ) (2025-04-07T16:05:52Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。
検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。
生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文 参考訳(メタデータ) (2024-11-11T14:25:37Z) - ChunkRAG: Novel LLM-Chunk Filtering Method for RAG Systems [2.8692611791027893]
Retrieval-Augmented Generation (RAG) システムは、無関係またはゆるい関連情報の検索によって不正確な応答を生成する。
チャンクレベルで取得した情報を評価・フィルタリングすることでRAGシステムを強化するフレームワークであるChunkRAGを提案する。
論文 参考訳(メタデータ) (2024-10-25T14:07:53Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Evaluation of RAG Metrics for Question Answering in the Telecom Domain [0.650923326742559]
Retrieval Augmented Generation (RAG) は、大規模言語モデル(LLM)が質問応答(QA)タスクを実行できるようにするために広く使われている。
この作業は、いくつかの指標(事実性、文脈関連性、回答関連性、回答正当性、回答類似性、事実正当性)に対して修正されたこのパッケージで、プロンプトの中間出力を提供する。
次に、修正されたRAGASパッケージの出力のエキスパート評価を分析し、通信領域で使用する際の課題を観察する。
論文 参考訳(メタデータ) (2024-07-15T17:40:15Z) - Ground Every Sentence: Improving Retrieval-Augmented LLMs with Interleaved Reference-Claim Generation [51.8188846284153]
分散テキスト生成(ATG)は,RAGシステムにおける信頼性と妥当性を高めるために提案される。
本稿では,参照と回答を段階的に交互に生成する詳細なATG手法であるReClaimを提案する。
広範囲な実験により,ReClaimの有効性が検証され,90%の引用精度が得られた。
論文 参考訳(メタデータ) (2024-07-01T20:47:47Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。