論文の概要: LLM-Oriented Information Retrieval: A Denoising-First Perspective
- arxiv url: http://arxiv.org/abs/2605.00505v1
- Date: Fri, 01 May 2026 08:30:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.910387
- Title: LLM-Oriented Information Retrieval: A Denoising-First Perspective
- Title(参考訳): LLM指向情報検索:デノジングファーストの視点から
- Authors: Lu Dai, Liang Sun, Fanpu Cao, Ziyang Rao, Cehao Yang, Hao Liu, Hui Xiong,
- Abstract要約: 使用可能なエビデンス密度とコンテキストウィンドウ内での検証可能性の最大化が,全情報アクセスパイプラインにおける主要なボトルネックになりつつある,と我々は主張する。
信号と雑音の最適化技術、索引付け、検索、文脈工学、検証、エージェントワークフローをパイプラインで構成した分類法を提供する。
- 参考スコア(独自算出の注目度): 19.06546401783018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern information retrieval (IR) is no longer consumed primarily by humans but increasingly by large language models (LLMs) via retrieval-augmented generation (RAG) and agentic search. Unlike human users, LLMs are constrained by limited attention budgets and are uniquely vulnerable to noise; misleading or irrelevant information is no longer just a nuisance, but a direct cause of hallucinations and reasoning failures. In this perspective paper, we argue that denoising-maximizing usable evidence density and verifiability within a context window-is becoming the primary bottleneck across the full information access pipeline. We conceptualize this paradigm shift through a four-stage framework of IR challenges: from inaccessible to undiscoverable, to misaligned, and finally to unverifiable. Furthermore, we provide a pipeline-organized taxonomy of signal-to-noise optimization techniques, spanning indexing, retrieval, context engineering, verification, and agentic workflow. We also present research works on information denoising in domains that rely heavily on retrieval such as lifelong assistant, coding agent, deep research, and multimodal understanding.
- Abstract(参考訳): 現代の情報検索 (IR) は主に人間によって消費されるのではなく、検索強化世代 (RAG) とエージェントサーチによる大規模言語モデル (LLM) によってますます消費される。
人間のユーザとは異なり、LLMは限られた注意予算で制約されており、ノイズに特有の脆弱性がある。
本稿では,コンテキストウィンドウ内で使用可能なエビデンス密度と妥当性を最大化することが,全情報アクセスパイプラインにおける主要なボトルネックになりつつあることを論じる。
このパラダイムは、アクセシブルから発見不可能、ミスアライメント、そして最終的に検証不可能まで、IR課題の4段階のフレームワークを通じて概念化されます。
さらに,信号と雑音の最適化技術,インデックス化,検索,コンテキストエンジニアリング,検証,エージェントワークフローをパイプラインで構成した分類手法を提案する。
また、生涯アシスタント、コーディングエージェント、ディープリサーチ、マルチモーダル理解など、検索に大きく依存する領域における情報デノベーションに関する研究を行う。
関連論文リスト
- Lost in the Noise: How Reasoning Models Fail with Contextual Distractors [57.31788955167306]
推論モデルとエージェントAIシステムの最近の進歩は、多様な外部情報への依存度を高めている。
NoisyBenchは、RAGの11のデータセット、推論、アライメント、ツール使用タスクに対して、モデルロバスト性を体系的に評価する包括的なベンチマークである。
評価の結果,文脈的障害に直面した場合,最先端モデルでは最大80%の破滅的な性能低下がみられた。
論文 参考訳(メタデータ) (2026-01-12T05:43:51Z) - DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router [57.28685457991806]
DeepSieveはエージェントRAGフレームワークで、LLM-as-a-knowledge-routerを介して情報を収集する。
我々の設計はモジュール性、透明性、適応性を重視しており、エージェントシステム設計の最近の進歩を活用している。
論文 参考訳(メタデータ) (2025-07-29T17:55:23Z) - END: Early Noise Dropping for Efficient and Effective Context Denoising [60.24648712022382]
大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。
彼らはしばしば、出力品質を低下させる入力シーケンスにおける無関係またはノイズの文脈に気を散らされる。
我々は,LLMの微調整を必要とせず,この問題を緩和するための新しい手法であるEarly Noise Dropping (textscEND)を紹介した。
論文 参考訳(メタデータ) (2025-02-26T08:07:17Z) - Unleashing the Power of Large Language Model for Denoising Recommendation [19.744823605753382]
LLaRDは、大規模言語モデルを利用してレコメンデーションシステムのデノーミングを改善するフレームワークである。
LLaRDは、まず観測データから意味的な洞察を豊かにすることにより、認知関連知識を生成する。
その後、ユーザとイテムの相互作用グラフに新しいChain-of-Thought(CoT)技術を導入し、認知のための関係知識を明らかにする。
論文 参考訳(メタデータ) (2025-02-13T08:19:45Z) - Detecting LLM Hallucination Through Layer-wise Information Deficiency: Analysis of Ambiguous Prompts and Unanswerable Questions [60.31496362993982]
大規模言語モデル(LLM)は、自信を持って不正確な応答を頻繁に生成する。
本稿では,情報フローの系統的解析を通じて,モデル幻覚を検出する新しいテストタイム手法を提案する。
論文 参考訳(メタデータ) (2024-12-13T16:14:49Z) - How Easily do Irrelevant Inputs Skew the Responses of Large Language Models? [35.78256134989427]
大きな言語モデル(LLM)は多くの知識集約的なタスクを達成するための拡張された能力を示す。
現在の検索システムに固有の欠陥があるため、検索する上位のパスには無関係な情報が存在する可能性がある。
我々は,意味的に無関係で,部分的に関連があり,質問に関連するような,高品質な無関係な情報を構築するための枠組みを導入する。
論文 参考訳(メタデータ) (2024-04-04T08:52:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。