論文の概要: SiReRAG: Indexing Similar and Related Information for Multihop Reasoning
- arxiv url: http://arxiv.org/abs/2412.06206v1
- Date: Mon, 09 Dec 2024 04:56:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:55:47.537236
- Title: SiReRAG: Indexing Similar and Related Information for Multihop Reasoning
- Title(参考訳): SiReRAG:マルチホップ推論のための類似情報と関連情報
- Authors: Nan Zhang, Prafulla Kumar Choubey, Alexander Fabbri, Gabriel Bernadett-Shapiro, Rui Zhang, Prasenjit Mitra, Caiming Xiong, Chien-Sheng Wu,
- Abstract要約: SiReRAGは、類似情報と関連する情報の両方を明示的に考慮する新しいRAGインデックス方式である。
SiReRAGは、3つのマルチホップデータセットの最先端インデックス手法を一貫して上回る。
- 参考スコア(独自算出の注目度): 96.60045548116584
- License:
- Abstract: Indexing is an important step towards strong performance in retrieval-augmented generation (RAG) systems. However, existing methods organize data based on either semantic similarity (similarity) or related information (relatedness), but do not cover both perspectives comprehensively. Our analysis reveals that modeling only one perspective results in insufficient knowledge synthesis, leading to suboptimal performance on complex tasks requiring multihop reasoning. In this paper, we propose SiReRAG, a novel RAG indexing approach that explicitly considers both similar and related information. On the similarity side, we follow existing work and explore some variances to construct a similarity tree based on recursive summarization. On the relatedness side, SiReRAG extracts propositions and entities from texts, groups propositions via shared entities, and generates recursive summaries to construct a relatedness tree. We index and flatten both similarity and relatedness trees into a unified retrieval pool. Our experiments demonstrate that SiReRAG consistently outperforms state-of-the-art indexing methods on three multihop datasets (MuSiQue, 2WikiMultiHopQA, and HotpotQA), with an average 1.9% improvement in F1 scores. As a reasonably efficient solution, SiReRAG enhances existing reranking methods significantly, with up to 7.8% improvement in average F1 scores.
- Abstract(参考訳): インデックス化は、検索強化世代(RAG)システムにおいて、強力なパフォーマンスに向けた重要なステップである。
しかし、既存の手法は、意味的類似性(類似性)または関連情報(関連性)に基づいてデータを整理するが、両視点を包括的にカバーしない。
解析の結果,モデリングは知識合成が不十分なため,マルチホップ推論を必要とする複雑なタスクにおいて,最適以下の性能が得られることがわかった。
本稿では,類似情報と関連情報の両方を明示的に考慮した新しいRAGインデックス手法であるSiReRAGを提案する。
類似性側では、既存の研究に従い、再帰的な要約に基づいて類似性木を構築するためにいくつかのばらつきを探る。
関連性側では、SiReRAGはテキストから命題と実体を抽出し、共有エンティティを介してグループ命題を抽出し、関連性ツリーを構築するために再帰的な要約を生成する。
我々は類似点と関連点の両方をインデックス化しフラット化し、統一された検索プールに配置する。
実験の結果,SiReRAGは3つのマルチホップデータセット(MuSiQue,2WikiMultiHopQA,HotpotQA)において,平均1.9%改善した。
合理的に効率的な解法として、SiReRAGは既存のリランク法を大幅に強化し、平均F1スコアは最大7.8%改善した。
関連論文リスト
- Optimizing Retrieval-Augmented Generation with Elasticsearch for Enhanced Question-Answering Systems [2.4299671488193497]
本研究の目的は,大規模言語モデル(LLM)の精度と品質を,検索型拡張生成(RAG)フレームワークに統合することにより改善することである。
この実験では、テストデータセットとしてSQuAD(Stanford Question Answering dataset)バージョン2.0が使用されている。
論文 参考訳(メタデータ) (2024-10-18T04:17:49Z) - Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - Retrieval with Learned Similarities [2.729516456192901]
最先端の検索アルゴリズムは、学習された類似点に移行した。
そこで本研究では,Mixture-of-Logits (MoL) を実証的に実現し,多様な検索シナリオにおいて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2024-07-22T08:19:34Z) - Learnable Pillar-based Re-ranking for Image-Text Retrieval [119.9979224297237]
画像テキスト検索は、モダリティギャップを埋め、意味的類似性に基づいてモダリティコンテンツを検索することを目的としている。
一般的なポストプロセッシング手法であるリグレードは, 単一モダリティ検索タスクにおいて, 隣り合う関係を捕捉する優位性を明らかにしている。
本稿では,画像テキスト検索のための新しい学習可能な柱型リグレードパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-25T04:33:27Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - Automatically Generating Counterfactuals for Relation Exaction [18.740447044960796]
関係抽出(RE)は自然言語処理の基本課題である。
現在のディープニューラルモデルは高い精度を達成しているが、スプリアス相関の影響を受けやすい。
我々は、エンティティの文脈的反事実を導出するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2022-02-22T04:46:10Z) - SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval [11.38022203865326]
SPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。
我々は、プール機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。
全体として、SPLADEはTREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2021-09-21T10:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。