論文の概要: $\texttt{MixGR}$: Enhancing Retriever Generalization for Scientific Domain through Complementary Granularity
- arxiv url: http://arxiv.org/abs/2407.10691v1
- Date: Mon, 15 Jul 2024 13:04:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 15:11:40.935594
- Title: $\texttt{MixGR}$: Enhancing Retriever Generalization for Scientific Domain through Complementary Granularity
- Title(参考訳): $\texttt{MixGR}$:Complementary Granularityによる科学領域のRetriever Generalizationの強化
- Authors: Fengyu Cai, Xinran Zhao, Tong Chen, Sihao Chen, Hongming Zhang, Iryna Gurevych, Heinz Koeppl,
- Abstract要約: 本稿では,様々なレベルの粒度にまたがる問合せ文書マッチングに対する高密度検索者の認識を改善するために,$texttMixGR$を紹介した。
$texttMixGR$は、これらの粒度に基づいて様々なメトリクスを統合スコアに融合させ、包括的なクエリドキュメントの類似性を反映させる。
実験によると、$texttMixGR$は、教師なしと教師なしのレトリバーでnDCG@5で、以前のドキュメント検索を24.7%、9.8%上回っている。
- 参考スコア(独自算出の注目度): 88.78750571970232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies show the growing significance of document retrieval in the generation of LLMs, i.e., RAG, within the scientific domain by bridging their knowledge gap. However, dense retrievers often struggle with domain-specific retrieval and complex query-document relationships, particularly when query segments correspond to various parts of a document. To alleviate such prevalent challenges, this paper introduces $\texttt{MixGR}$, which improves dense retrievers' awareness of query-document matching across various levels of granularity in queries and documents using a zero-shot approach. $\texttt{MixGR}$ fuses various metrics based on these granularities to a united score that reflects a comprehensive query-document similarity. Our experiments demonstrate that $\texttt{MixGR}$ outperforms previous document retrieval by 24.7% and 9.8% on nDCG@5 with unsupervised and supervised retrievers, respectively, averaged on queries containing multiple subqueries from five scientific retrieval datasets. Moreover, the efficacy of two downstream scientific question-answering tasks highlights the advantage of $\texttt{MixGR}$to boost the application of LLMs in the scientific domain.
- Abstract(参考訳): 近年の研究では、知識ギャップを埋めることにより、科学領域内でのLLM、すなわちRAGの生成において文書検索の重要性が増している。
しかし、密度の高い検索者は、特にクエリセグメントがドキュメントの様々な部分に対応する場合、ドメイン固有の検索と複雑なクエリドキュメントの関係に苦慮することが多い。
そこで本研究では,クエリやドキュメントの様々なレベルの粒度にまたがるクエリ文書マッチングに対する高密度な検索者の認識を改善するために,ゼロショットアプローチを用いて$\texttt{MixGR}$を導入する。
$\texttt{MixGR}$は、これらの粒度に基づくさまざまなメトリクスを統合スコアに融合させ、包括的なクエリドキュメントの類似性を反映させる。
実験の結果,nDCG@5では$\texttt{MixGR}$が従来の文書検索を24.7%,9.8%上回った。
さらに、下流の2つの科学的質問応答タスクの有効性は、科学領域におけるLSMの適用を促進するために$\texttt{MixGR}$の利点を強調している。
関連論文リスト
- R^2AG: Incorporating Retrieval Information into Retrieval Augmented Generation [11.890598082534577]
Retrieval augmented generation (RAG) は、検索者によって提供される外部文書で大規模言語モデル(LLM)を拡張するために、多くのシナリオで適用されてきた。
本稿では,R$2$AGを提案する。R$2$AGは,検索情報を検索用拡張生成に組み込む新しい拡張RAGフレームワークである。
論文 参考訳(メタデータ) (2024-06-19T06:19:48Z) - DR-RAG: Applying Dynamic Document Relevance to Retrieval-Augmented Generation for Question-Answering [4.364937306005719]
RAGは最近、質問応答(QA)のような知識集約的なタスクにおいて、LLM(Large Language Models)のパフォーマンスを実証した。
重要な文書とクエリの間には関連性が低いものの,文書の一部とクエリを組み合わせることで,残りの文書を検索できることがわかった。
文書検索のリコールと回答の精度を向上させるために,DR-RAG(Dynamic-Relevant Retrieval-Augmented Generation)と呼ばれる2段階検索フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-11T15:15:33Z) - Non-Parametric Memory Guidance for Multi-Document Summarization [0.0]
本稿では,非パラメトリックメモリと組み合わせたレトリバー誘導モデルを提案する。
このモデルはデータベースから関連する候補を検索し、その候補をコピー機構とソースドキュメントで考慮して要約を生成する。
本手法は,学術論文を含むMultiXScienceデータセットを用いて評価する。
論文 参考訳(メタデータ) (2023-11-14T07:41:48Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文 参考訳(メタデータ) (2023-03-14T07:27:30Z) - Fine-Grained Distillation for Long Document Retrieval [86.39802110609062]
ロングドキュメント検索は、大規模コレクションからクエリ関連ドキュメントを取得することを目的としている。
知識蒸留は、異質だが強力なクロスエンコーダを模倣することによって、レトリバーを改善するために事実上のものである。
本稿では, 長期文書検索のための新たな学習フレームワークFGDを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:00:36Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。