論文の概要: LLM-guided Hierarchical Retrieval
- arxiv url: http://arxiv.org/abs/2510.13217v1
- Date: Wed, 15 Oct 2025 07:05:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.537107
- Title: LLM-guided Hierarchical Retrieval
- Title(参考訳): LLM誘導階層検索
- Authors: Nilesh Gupta, Wei-Cheng Chang, Ngot Bui, Cho-Jui Hsieh, Inderjit S. Dhillon,
- Abstract要約: LATTICEは階層的な検索フレームワークであり、LLMは対数探索の複雑さで大きなコーパスを推論し、ナビゲートすることができる。
LLM誘導探索における中心的な課題は、モデルの関連性判断がノイズが多く、文脈に依存し、階層性に気付かないことである。
我々のフレームワークは、推論集約型BRIGHTベンチマークで最先端のゼロショット性能を実現する。
- 参考スコア(独自算出の注目度): 54.73080745446999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern IR systems are increasingly tasked with answering complex, multi-faceted queries that require deep reasoning rather than simple keyword or semantic matching. While LLM-based IR has shown great promise, the prevailing retrieve-then-rerank paradigm inherits the limitations of embedding-based retrieval; parametric generative approaches are difficult to update with new information; and long-context methods that place the entire corpus in context are computationally infeasible for large document collections. To address these challenges, we introduce LATTICE, a hierarchical retrieval framework that enables an LLM to reason over and navigate large corpora with logarithmic search complexity by imposing a semantic tree structure on the corpus. Our approach consists of two stages: (1) an offline phase that organizes the corpus into a semantic hierarchy via either a bottom-up agglomerative strategy or a top-down divisive strategy using multi-level summaries and (2) an online traversal phase where a search LLM navigates this tree. A central challenge in such LLM-guided search is that the model's relevance judgments are noisy, context-dependent, and unaware of the hierarchy, making cross-branch and cross-level comparisons difficult. To overcome this, we propose a traversal algorithm that estimates calibrated latent relevance scores from local LLM outputs and aggregates them into a global path relevance metric. Our training-free framework achieves state-of-the-art zero-shot performance on the reasoning-intensive BRIGHT benchmark, demonstrating up to 9% improvement in Recall@100 and 5% in nDCG@10 over the next best zero-shot baseline. Furthermore, compared to the fine-tuned SOTA method DIVER-v2, LATTICE attains comparable results on BRIGHT subsets that use a static corpus for evaluation.
- Abstract(参考訳): 現代のIRシステムは、単純なキーワードやセマンティックマッチングではなく、深い推論を必要とする複雑で多面的なクエリに答えることがますます課題になっている。
LLMベースのIRは大きな可能性を示してきたが、一般的な検索-待ち時間パラダイムは埋め込みベースの検索の限界を継承し、パラメトリック生成アプローチは新しい情報で更新することは困難である。
これらの課題に対処するために,LLMが対数探索の複雑さを伴って大きなコーパスを推論・ナビゲートできる階層的検索フレームワークであるLATTICEを紹介した。
提案手法は,(1)ボトムアップ・アグリメティブ・ストラテジーまたはトップダウン・ディビジョン・ストラテジーを通じてコーパスをセマンティック・階層に編成するオフラインフェーズと,(2)検索用LLMがこのツリーをナビゲートするオンライン・トラバース・フェーズの2段階から構成される。
LLM誘導探索における中心的な課題は、モデルの関連性判断がノイズが多く、文脈依存的であり、階層性に気付かないため、クロスブランチとクロスレベル比較が難しいことである。
これを解決するために,局所的なLCM出力からキャリブレーションされた潜在関連度スコアを推定し,それらをグローバルパス関連度尺度に集約するトラバースアルゴリズムを提案する。
我々のトレーニングフリーフレームワークは、推論集約的なBRIGHTベンチマークで最先端のゼロショットパフォーマンスを実現し、次の最高のゼロショットベースラインに対して、Recall@100が9%改善、nDCG@10が5%改善した。
さらに、微調整されたSOTA法であるDIVER-v2と比較して、LATTICEは評価に静的コーパスを使用するBRIGHTサブセットに匹敵する結果が得られる。
関連論文リスト
- Automated Skill Decomposition Meets Expert Ontologies: Bridging the Granularity Gap with LLMs [1.2891210250935148]
本稿では,Large Language Models (LLM) を用いた自動スキル分解について検討する。
我々のフレームワークは、パイプラインをプロンプトと生成から正規化とオントロジーノードとのアライメントまで標準化する。
出力を評価するために、コンテンツ精度を評価するために最適な埋め込みベースのマッチングを使用するF1スコアと、粒度を評価するために構造的に正しい配置を信用する階層型F1スコアの2つの指標を導入する。
論文 参考訳(メタデータ) (2025-10-13T12:03:06Z) - Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - Harnessing the Power of Reinforcement Learning for Language-Model-Based Information Retriever via Query-Document Co-Augmentation [35.70731674603417]
LLM(Large Language Models)は、ユーザクエリとコーパスドキュメントの拡張に使用することができる。
ユーザクエリとコーパスドキュメントの両方を拡張できるLLMベースのレトリバーを提案する。
提案手法は,疎密な設定と密な設定の両方において,LLMに基づく検索性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-06-23T14:14:43Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - ELITE: Embedding-Less retrieval with Iterative Text Exploration [5.8851517822935335]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げた。
長期のコンテキスト制約を維持する能力は、ドキュメントレベルやマルチターンタスクのパフォーマンスを制限します。
論文 参考訳(メタデータ) (2025-05-17T08:48:43Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - HIRO: Hierarchical Information Retrieval Optimization [0.0]
Retrieval-Augmented Generation (RAG)は、外部知識をLLM(Large Language Models)に動的に統合することで自然言語処理に革命をもたらした。
RAGの最近の実装は階層的なデータ構造を活用し、様々なレベルの要約と情報密度で文書を整理している。
この複雑さにより、LSMは情報過負荷で"チョーク"し、より洗練されたクエリ機構を必要とする。
論文 参考訳(メタデータ) (2024-06-14T12:41:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。