論文の概要: $\texttt{MixGR}$: Enhancing Retriever Generalization for Scientific Domain through Complementary Granularity
- arxiv url: http://arxiv.org/abs/2407.10691v1
- Date: Mon, 15 Jul 2024 13:04:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 15:11:40.935594
- Title: $\texttt{MixGR}$: Enhancing Retriever Generalization for Scientific Domain through Complementary Granularity
- Title(参考訳): $\texttt{MixGR}$:Complementary Granularityによる科学領域のRetriever Generalizationの強化
- Authors: Fengyu Cai, Xinran Zhao, Tong Chen, Sihao Chen, Hongming Zhang, Iryna Gurevych, Heinz Koeppl,
- Abstract要約: 本稿では,様々なレベルの粒度にまたがる問合せ文書マッチングに対する高密度検索者の認識を改善するために,$texttMixGR$を紹介した。
$texttMixGR$は、これらの粒度に基づいて様々なメトリクスを統合スコアに融合させ、包括的なクエリドキュメントの類似性を反映させる。
実験によると、$texttMixGR$は、教師なしと教師なしのレトリバーでnDCG@5で、以前のドキュメント検索を24.7%、9.8%上回っている。
- 参考スコア(独自算出の注目度): 88.78750571970232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies show the growing significance of document retrieval in the generation of LLMs, i.e., RAG, within the scientific domain by bridging their knowledge gap. However, dense retrievers often struggle with domain-specific retrieval and complex query-document relationships, particularly when query segments correspond to various parts of a document. To alleviate such prevalent challenges, this paper introduces $\texttt{MixGR}$, which improves dense retrievers' awareness of query-document matching across various levels of granularity in queries and documents using a zero-shot approach. $\texttt{MixGR}$ fuses various metrics based on these granularities to a united score that reflects a comprehensive query-document similarity. Our experiments demonstrate that $\texttt{MixGR}$ outperforms previous document retrieval by 24.7% and 9.8% on nDCG@5 with unsupervised and supervised retrievers, respectively, averaged on queries containing multiple subqueries from five scientific retrieval datasets. Moreover, the efficacy of two downstream scientific question-answering tasks highlights the advantage of $\texttt{MixGR}$to boost the application of LLMs in the scientific domain.
- Abstract(参考訳): 近年の研究では、知識ギャップを埋めることにより、科学領域内でのLLM、すなわちRAGの生成において文書検索の重要性が増している。
しかし、密度の高い検索者は、特にクエリセグメントがドキュメントの様々な部分に対応する場合、ドメイン固有の検索と複雑なクエリドキュメントの関係に苦慮することが多い。
そこで本研究では,クエリやドキュメントの様々なレベルの粒度にまたがるクエリ文書マッチングに対する高密度な検索者の認識を改善するために,ゼロショットアプローチを用いて$\texttt{MixGR}$を導入する。
$\texttt{MixGR}$は、これらの粒度に基づくさまざまなメトリクスを統合スコアに融合させ、包括的なクエリドキュメントの類似性を反映させる。
実験の結果,nDCG@5では$\texttt{MixGR}$が従来の文書検索を24.7%,9.8%上回った。
さらに、下流の2つの科学的質問応答タスクの有効性は、科学領域におけるLSMの適用を促進するために$\texttt{MixGR}$の利点を強調している。
関連論文リスト
- Learning More Effective Representations for Dense Retrieval through Deliberate Thinking Before Search [65.53881294642451]
ディリベレート思考に基づくDense Retriever (DEBATER)
DEBATERは、ステップバイステップの思考プロセスを通じて、より効果的な文書表現を学習できるようにすることにより、最近の密集型検索機能を強化している。
実験の結果,DEBATERはいくつかのベンチマークで既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - GeAR: Generation Augmented Retrieval [82.20696567697016]
文書検索技術は大規模情報システム開発の基礎となる。
一般的な手法は、バイエンコーダを構築し、セマンティックな類似性を計算することである。
我々は、よく設計された融合およびデコードモジュールを組み込んだ $textbfGe$neration という新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-06T05:29:00Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - R^2AG: Incorporating Retrieval Information into Retrieval Augmented Generation [11.890598082534577]
Retrieval augmented generation (RAG) は、検索者によって提供される外部文書で大規模言語モデル(LLM)を拡張するために、多くのシナリオで適用されてきた。
本稿では,R$2$AGを提案する。R$2$AGは,検索情報を検索用拡張生成に組み込む新しい拡張RAGフレームワークである。
論文 参考訳(メタデータ) (2024-06-19T06:19:48Z) - DR-RAG: Applying Dynamic Document Relevance to Retrieval-Augmented Generation for Question-Answering [4.364937306005719]
RAGは最近、質問応答(QA)のような知識集約的なタスクにおいて、LLM(Large Language Models)のパフォーマンスを実証した。
重要な文書とクエリの間には関連性が低いものの,文書の一部とクエリを組み合わせることで,残りの文書を検索できることがわかった。
文書検索のリコールと回答の精度を向上させるために,DR-RAG(Dynamic-Relevant Retrieval-Augmented Generation)と呼ばれる2段階検索フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-11T15:15:33Z) - Progressive Query Expansion for Retrieval Over Cost-constrained Data Sources [6.109188517569139]
ProQEはプログレッシブなクエリ拡張アルゴリズムで、より多くのドキュメントを取得すると、クエリを反復的に拡張する。
その結果, ProQEは最先端のベースラインを37%上回り, 費用対効果が最も高いことがわかった。
論文 参考訳(メタデータ) (2024-06-11T10:30:19Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文 参考訳(メタデータ) (2023-03-14T07:27:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。