論文の概要: Hierarchical Re-ranker Retriever (HRR)
- arxiv url: http://arxiv.org/abs/2503.02401v1
- Date: Tue, 04 Mar 2025 08:43:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:21:31.941799
- Title: Hierarchical Re-ranker Retriever (HRR)
- Title(参考訳): Hierarchical Re-ranker Retriever (HRR)
- Authors: Ashish Singh, Priti Mohapatra,
- Abstract要約: 本稿では,階層型再帰レトリバー(HRR)について紹介する。
HRRでは、文書を文レベルと中間レベル(512トークン)のチャンクに分割して、短いクエリと広いクエリの両方でベクトル検索の品質を最大化する。
- 参考スコア(独自算出の注目度): 2.6527830618420967
- License:
- Abstract: Retrieving the right level of context for a given query is a perennial challenge in information retrieval - too large a chunk dilutes semantic specificity, while chunks that are too small lack broader context. This paper introduces the Hierarchical Re-ranker Retriever (HRR), a framework designed to achieve both fine-grained and high-level context retrieval for large language model (LLM) applications. In HRR, documents are split into sentence-level and intermediate-level (512 tokens) chunks to maximize vector-search quality for both short and broad queries. We then employ a reranker that operates on these 512-token chunks, ensuring an optimal balance neither too coarse nor too fine for robust relevance scoring. Finally, top-ranked intermediate chunks are mapped to parent chunks (2048 tokens) to provide an LLM with sufficiently large context.
- Abstract(参考訳): あるクエリに対して適切なコンテキストレベルを取得することは、情報検索において長年にわたる課題であり、チャンクが大きすぎると意味的特異性が薄れ、チャンクが小さすぎるとより広いコンテキストが欠落する。
本稿では,大規模言語モデル (LLM) アプリケーションのための細粒度および高レベルのコンテキスト検索を実現するためのフレームワークである階層再帰レトリバー (HRR) を紹介する。
HRRでは、文書を文レベルと中間レベル(512トークン)のチャンクに分割して、短いクエリと広いクエリの両方でベクトル検索の品質を最大化する。
次に、これらの512個のチャンクを動作させるリランカーを使用し、粗いバランスやロバストな関連性スコアのための最適バランスを確保します。
最後に、上位の中間チャンクを親チャンク(2048トークン)にマッピングして、十分に大きなコンテキストを持つLLMを提供する。
関連論文リスト
- LLM$\times$MapReduce: Simplified Long-Sequence Processing using Large Language Models [73.13933847198395]
本稿では,文書理解を包括的に行うための分割・対数戦略を利用して,長文処理のための学習自由フレームワークを提案する。
提案された LLM$times$MapReduce フレームワークは、ドキュメント全体を LLM が読み取るためにいくつかのチャンクに分割し、中間回答を集約して最終的な出力を生成する。
論文 参考訳(メタデータ) (2024-10-12T03:13:44Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - Optimization of Retrieval-Augmented Generation Context with Outlier Detection [0.0]
そこで本研究では,質問応答システムに必要な文脈の小型化と品質向上に焦点をあてる。
私たちのゴールは、最も意味のあるドキュメントを選択し、捨てられたドキュメントをアウトリーチとして扱うことです。
その結果,質問や回答の複雑さを増大させることで,最大の改善が達成された。
論文 参考訳(メタデータ) (2024-07-01T15:53:29Z) - Ask Optimal Questions: Aligning Large Language Models with Retriever's
Preference in Conversational Search [25.16282868262589]
RetPOは、ターゲット検索システムの好みに合わせて検索クエリを再構成するための言語モデル(LM)を最適化するように設計されている。
我々は、12Kの会話で410K以上のクエリを書き換えるRetrievers' Feedbackと呼ばれる大規模なデータセットを構築した。
このモデルにより,最近の2つの対話型検索ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-02-19T04:41:31Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。
我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文 参考訳(メタデータ) (2023-04-27T14:45:55Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Salient Phrase Aware Dense Retrieval: Can a Dense Retriever Imitate a
Sparse One? [15.618287626892174]
本稿では,スパースモデルの語彙マッチング能力を有する高密度検索器であるSPARについて紹介する。
特に高密度レトリバーLambdaはスパースレトリバーを模倣するように訓練でき、SPARは標準密度レトリバーをLambdaで強化することで構築されることを示す。
論文 参考訳(メタデータ) (2021-10-13T17:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。