論文の概要: Hypothetical Documents or Knowledge Leakage? Rethinking LLM-based Query Expansion
- arxiv url: http://arxiv.org/abs/2504.14175v1
- Date: Sat, 19 Apr 2025 04:32:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 04:26:25.181512
- Title: Hypothetical Documents or Knowledge Leakage? Rethinking LLM-based Query Expansion
- Title(参考訳): 仮説文書と知識漏洩 : LLMに基づくクエリ拡張の再考
- Authors: Yejun Yoon, Jaeyoon Jung, Seunghyun Yoon, Kunwoo Park,
- Abstract要約: ベンチマークにおける知識リークが,観測された性能向上に寄与するかどうかを検討する。
以上の結果から, 得られた文書が真理証拠に関連のある文を含むクレームに対してのみ, 性能改善が一貫して行われたことが示唆された。
- 参考スコア(独自算出の注目度): 6.792233590302494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Query expansion methods powered by large language models (LLMs) have demonstrated effectiveness in zero-shot retrieval tasks. These methods assume that LLMs can generate hypothetical documents that, when incorporated into a query vector, enhance the retrieval of real evidence. However, we challenge this assumption by investigating whether knowledge leakage in benchmarks contributes to the observed performance gains. Using fact verification as a testbed, we analyzed whether the generated documents contained information entailed by ground truth evidence and assessed their impact on performance. Our findings indicate that performance improvements occurred consistently only for claims whose generated documents included sentences entailed by ground truth evidence. This suggests that knowledge leakage may be present in these benchmarks, inflating the perceived performance of LLM-based query expansion methods, particularly in real-world scenarios that require retrieving niche or novel knowledge.
- Abstract(参考訳): 大規模言語モデル(LLM)を用いた問合せ拡張手法は,ゼロショット検索タスクにおいて有効であることを示す。
これらの手法は、LCMが、クエリベクトルに組み込むと、実際の証拠の検索を強化する仮説的な文書を生成することができると仮定する。
しかし、ベンチマークにおける知識リークが、観測された性能向上に寄与するかどうかを調べることで、この仮定に挑戦する。
事実検証をテストベッドとして用い, 得られた文書が真理証拠に関係のある情報を含むか否かを解析し, 性能への影響を評価した。
以上の結果から, 得られた文書が真理証拠に関連のある文を含むクレームに対してのみ, 性能改善が一貫して行われたことが示唆された。
このことは、知識漏洩がこれらのベンチマークに存在し、特にニッチや新規知識の検索を必要とする現実のシナリオにおいて、LLMベースのクエリ拡張手法の性能が増大していることを示唆している。
関連論文リスト
- Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - Learning More Effective Representations for Dense Retrieval through Deliberate Thinking Before Search [65.53881294642451]
ディリベレート思考に基づくDense Retriever (DEBATER)
DEBATERは、ステップバイステップの思考プロセスを通じて、より効果的な文書表現を学習できるようにすることにより、最近の密集型検索機能を強化している。
実験の結果,DEBATERはいくつかのベンチマークで既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - IAO Prompting: Making Knowledge Flow Explicit in LLMs through Structured Reasoning Templates [7.839338724237275]
IAO(Input-Action-Output)は,大規模言語モデルがどのようにアクセスし,その知識を適用するかを明確にモデル化するテンプレートベースの構造的手法である。
IAOは問題を逐次的なステップに分解し、それぞれが使用する入力知識、実行中のアクション、および結果の出力を明確に識別する。
本研究は, LLMにおける知識表現と, より信頼性の高い知識応用のための手法に関する知見を提供する。
論文 参考訳(メタデータ) (2025-02-05T11:14:20Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Retrieval Augmented Fact Verification by Synthesizing Contrastive Arguments [23.639378586798884]
コントラスト引数の合成による検索拡張現実事実検証を提案する。
提案手法は,関連文書を証拠として効果的に検索し,様々な視点から議論を評価する。
RAFTS は GPT 法よりはるかに小さい 7B LLM で優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-06-14T08:13:34Z) - LLMs Know What They Need: Leveraging a Missing Information Guided Framework to Empower Retrieval-Augmented Generation [6.676337039829463]
ミス情報ガイド検索抽出パラダイム(MIGRES)を提案する。
欠落した情報の識別を利用して、その後の知識検索を操縦するターゲットクエリを生成する。
複数の公開データセットに対して行われた大規模な実験は、提案したMIGRES法の優位性を明らかにする。
論文 参考訳(メタデータ) (2024-04-22T09:56:59Z) - Embedding-Informed Adaptive Retrieval-Augmented Generation of Large Language Models [37.02290559379761]
Retrieval-augmented large language model (LLMs) は、様々なNLPタスクにおいて非常に有能である。
このことに動機づけられた、適応検索拡張生成(ARAG)研究は、クエリによって要求される知識が LLM に欠如している場合にのみ検索する。
論文 参考訳(メタデータ) (2024-04-04T15:21:22Z) - Corpus-Steered Query Expansion with Large Language Models [35.64662397095323]
我々はCSQE(Corpus-Steered Query Expansion)を導入し,コーパス内に埋め込まれた知識の取り込みを促進する。
CSQEは、LLMの関連性評価機能を利用して、最初に検索された文書の重要文を体系的に同定する。
大規模な実験により、CSQEは訓練を必要とせず、特にLLMが知識を欠いているクエリで強い性能を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-02-28T03:58:58Z) - UFO: a Unified and Flexible Framework for Evaluating Factuality of Large
Language Models [73.73303148524398]
大規模言語モデル(LLM)は、人間の知識との整合性に欠けるテキストを生成し、事実的不正確さやテキスト・ハロシン化をもたらす。
プラグアンドプレイのファクトソースに対する事実を検証するための,LLMに基づく統一的かつ柔軟な評価フレームワークである textttUFO を提案する。
論文 参考訳(メタデータ) (2024-02-22T16:45:32Z) - LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。
本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。
実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-14T01:38:02Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
本稿では,文書を動的に活用するための簡易な手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。