論文の概要: LLM-Specific Utility: A New Perspective for Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2510.11358v1
- Date: Mon, 13 Oct 2025 12:57:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.368955
- Title: LLM-Specific Utility: A New Perspective for Retrieval-Augmented Generation
- Title(参考訳): LLM-Specific Utility:Retrieval-Augmented Generationの新しい視点
- Authors: Hengran Zhang, Keping Bi, Jiafeng Guo, Jiaming Zhang, Shuaiqiang Wang, Dawei Yin, Xueqi Cheng,
- Abstract要約: Retrieval-augmented Generation (RAG)は、外部知識を取り入れた大規模言語モデル(LLM)を強化する。
既存の研究はしばしばユーティリティをジェネリック属性として扱い、異なるLLMが同じ通路から異なる利益をもたらすという事実を無視している。
- 参考スコア(独自算出の注目度): 110.610512800947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) enhances large language models (LLMs) by incorporating external knowledge. While traditional retrieval focuses on relevance, RAG's effectiveness depends on the utility of retrieved passages, i.e., the usefulness in facilitating the generation of an accurate and comprehensive answer. Existing studies often treat utility as a generic attribute, ignoring the fact that different LLMs may benefit differently from the same passage due to variations in internal knowledge and comprehension ability. In this work, we introduce and systematically investigate the notion of LLM-specific utility. Through large-scale experiments across multiple datasets and LLMs, we demonstrate that human-annotated passages are not optimal for LLMs and that ground-truth utilitarian passages are not transferable across different LLMs. These findings highlight the necessity of adopting the LLM-specific utility in RAG research. Our findings indicate that some human-annotated passages are not ground-truth utilitarian passages for specific LLMs, partially due to the varying readability of queries and passages for LLMs, a tendency for which perplexity is a key metric. Based on these findings, we propose a benchmarking procedure for LLM-specific utility judgments. We evaluate existing utility judgment methods on six datasets and find that while verbalized methods using pseudo-answers perform robustly, LLMs struggle to assess utility effectively-failing to reject all passages for known queries and to select truly useful ones for unknown queries.
- Abstract(参考訳): Retrieval-augmented Generation (RAG)は、外部知識を取り入れた大規模言語モデル(LLM)を強化する。
従来の検索は関連性に重点を置いているが、RAGの有効性は、検索されたパスの有用性、すなわち、正確で包括的な回答の生成を促進するための有用性に依存する。
既存の研究はしばしばユーティリティを一般的な属性として扱うが、内部知識のバリエーションや理解能力の違いにより、異なるLLMが同一のパスから異なる利益を得る可能性があるという事実を無視している。
本研究では,LLM固有のユーティリティの概念を導入し,体系的に検討する。
複数のデータセットやLSMをまたいだ大規模な実験を通して、人間による注釈付き通路はLLMに最適ではなく、また、実効性のある通路は異なるLSM間で転送できないことを示した。
これらの知見は,RAG研究にLLM固有のユーティリティを採用する必要性を浮き彫りにした。
以上の結果から, 人為的注釈付き通路は, 特定のLCMに対して, クエリの可読性やLPMに対する通路の可読性の違いが原因であり, パープレキシティが重要な指標となる傾向が示唆された。
そこで本研究では,LLM固有の実用性判断のためのベンチマーク手法を提案する。
提案手法は,6つのデータセットに対して既存の効用判定手法を評価し,擬似回答を用いた動詞化手法が頑健に機能するのに対して,LLMは,既知のクエリの全てのパスを拒否し,未知のクエリに対して真に有用なものを選択するのに有効な効用判定法を評価するのに苦慮している。
関連論文リスト
- AIn't Nothing But a Survey? Using Large Language Models for Coding German Open-Ended Survey Responses on Survey Motivation [0.8437187555622164]
本研究は,他の文脈におけるオープンエンドサーベイ応答の符号化に,LLMがどの程度の精度で利用できるかを検討する。
我々は、最先端のLLMといくつかのプロンプトアプローチを比較し、人間の専門家による符号化を用いてLLMの性能を評価する。
本研究は, LLMを効率的に, 正確に, 確実に活用できる環境研究の進展に寄与する。
論文 参考訳(メタデータ) (2025-06-17T15:28:53Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - "I know myself better, but not really greatly": How Well Can LLMs Detect and Explain LLM-Generated Texts? [10.454446545249096]
本稿では,2進(人間対LLM生成)と3進分類(未決定クラスを含む)の2つの設定において,現在のLLMの検出と説明能力について検討する。
異なる大きさの6つのオープンソースLCMを評価し、自己検出(LLM)が相互検出(他のLCMからの出力の同定)を一貫して上回っていることを発見した。
本研究は, 自己検出・自己説明における現在のLCMの限界を浮き彫りにして, 過度に適合し, 一般化性を高めるためのさらなる研究の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-02-18T11:00:28Z) - LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs -- No Silver Bullet for LC or RAG Routing [70.35888047551643]
本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。
LaRAは4つのQAタスクカテゴリと3種類の自然発生長文の2326のテストケースを含んでいる。
RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
論文 参考訳(メタデータ) (2025-02-14T08:04:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。