論文の概要: DSLR: Document Refinement with Sentence-Level Re-ranking and Reconstruction to Enhance Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2407.03627v4
- Date: Tue, 20 Aug 2024 10:27:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 19:15:20.142270
- Title: DSLR: Document Refinement with Sentence-Level Re-ranking and Reconstruction to Enhance Retrieval-Augmented Generation
- Title(参考訳): DSLR:文レベル再分類による文書のリファインメントと検索機能強化のための再構築
- Authors: Taeho Hwang, Soyeong Jeong, Sukmin Cho, SeungYoon Han, Jong C. Park,
- Abstract要約: DSLRは、検索された文書を文に分解し、無関係な文をフィルタリングし、それらを再び一貫性のある文に再構成する、教師なしのフレームワークである。
我々は,複数のオープンドメインQAデータセット上でDSLRを実験的に検証し,DSLRが従来の固定サイズパスよりもRAG性能を大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 8.336163057397536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have significantly improved their performance across various Natural Language Processing (NLP) tasks. However, LLMs still struggle with generating non-factual responses due to limitations in their parametric memory. Retrieval-Augmented Generation (RAG) systems address this issue by incorporating external knowledge with a retrieval module. Despite their successes, however, current RAG systems face challenges with retrieval failures and the limited ability of LLMs to filter out irrelevant information. Therefore, in this work, we propose DSLR (Document Refinement with Sentence-Level Re-ranking and Reconstruction), an unsupervised framework that decomposes retrieved documents into sentences, filters out irrelevant sentences, and reconstructs them again into coherent passages. We experimentally validate DSLR on multiple open-domain QA datasets and the results demonstrate that DSLR significantly enhances the RAG performance over conventional fixed-size passage. Furthermore, our DSLR enhances performance in specific, yet realistic scenarios without the need for additional training, providing an effective and efficient solution for refining retrieved documents in RAG systems.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、様々な自然言語処理(NLP)タスクにおいて、その性能を大幅に改善している。
しかし、LCMはパラメトリックメモリの制限のため、非実効応答の生成に苦慮している。
Retrieval-Augmented Generation (RAG) システムは、外部知識を検索モジュールに組み込むことでこの問題に対処する。
しかし、その成功にもかかわらず、現在のRAGシステムは、検索に失敗し、LLMが無関係な情報をフィルタリングする能力に制限があるという問題に直面している。
そこで本研究では、検索した文書を文に分解し、無関係な文をフィルタリングし、それらを再び一貫性のある文に再構成する、教師なしのフレームワークであるDSLRを提案する。
我々は,複数のオープンドメインQAデータセット上でDSLRを実験的に検証し,DSLRが従来の固定サイズパスよりもRAG性能を大幅に向上することを示した。
さらに、我々のDSLRは、追加のトレーニングを必要とせずに、特定の現実的なシナリオにおけるパフォーマンスを高め、RAGシステムで取得した文書を精算するための効率的かつ効率的なソリューションを提供する。
関連論文リスト
- Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting [68.90949377014742]
Speculative RAG(投機的RAG)は、より大規模なジェネラリストLMを利用して、より小さな蒸留専門のLMによって並列に生成された複数のRAGドラフトを効率よく検証するフレームワークである。
提案手法は,より小さな専門家のLMにドラフト作成を委譲することでRAGを加速し,より大きなジェネラリストのLMがドラフトに1回の検証パスを実行する。
PubHealthの従来のRAGシステムと比較して、レイテンシを51%削減しながら、最大12.97%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-07-11T06:50:19Z) - Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection [28.15184715270483]
大きな言語モデル (LLM) は、検索によって強化され、堅牢な性能と広範な汎用性を示す。
本稿では,スパースRAGという新しいパラダイムを提案する。
Sparse RAGは、検索したドキュメントを並列にエンコードする。
論文 参考訳(メタデータ) (2024-05-25T11:10:04Z) - RaFe: Ranking Feedback Improves Query Rewriting for RAG [83.24385658573198]
アノテーションを使わずにクエリ書き換えモデルをトレーニングするためのフレームワークを提案する。
公開されているリランカを活用することで、フィードバックはリライトの目的とよく一致します。
論文 参考訳(メタデータ) (2024-05-23T11:00:19Z) - RQ-RAG: Learning to Refine Queries for Retrieval Augmented Generation [42.82192656794179]
大きな言語モデル(LLM)は優れた能力を示すが、不正確なあるいは幻覚反応を引き起こす傾向がある。
この制限は、膨大な事前トレーニングデータセットに依存することに起因するため、目に見えないシナリオでのエラーの影響を受けやすい。
Retrieval-Augmented Generation (RAG) は、外部の関連文書を応答生成プロセスに組み込むことによって、この問題に対処する。
論文 参考訳(メタデータ) (2024-03-31T08:58:54Z) - Improving Retrieval for RAG based Question Answering Models on Financial Documents [0.046603287532620746]
本稿では,RAGパイプラインの既存の制約について検討し,テキスト検索の方法を紹介する。
高度なチャンキングテクニック、クエリ拡張、メタデータアノテーションの組み込み、再ランク付けアルゴリズムの適用、埋め込みアルゴリズムの微調整などの戦略を練っている。
論文 参考訳(メタデータ) (2024-03-23T00:49:40Z) - RAGGED: Towards Informed Design of Retrieval Augmented Generation Systems [51.171355532527365]
Retrieval-augmented Generation (RAG) は言語モデル(LM)の性能を大幅に向上させる
RAGGEDは、様々な文書ベースの質問応答タスクにわたるRAG構成を分析するためのフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T02:26:31Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z) - RAGAS: Automated Evaluation of Retrieval Augmented Generation [25.402461447140823]
RAGAはRetrieval Augmented Generationパイプラインを評価するためのフレームワークである。
RAGシステムは、検索とLLMベースの生成モジュールで構成される。
論文 参考訳(メタデータ) (2023-09-26T19:23:54Z) - RBSR: Efficient and Flexible Recurrent Network for Burst
Super-Resolution [57.98314517861539]
バースト超解像(BurstSR)は、高解像度(HR)画像を低解像度(LR)画像と雑音画像から再構成することを目的としている。
本稿では,効率よくフレキシブルなリカレントネットワークでフレーム単位のキューを融合させることを提案する。
論文 参考訳(メタデータ) (2023-06-30T12:14:13Z) - Pattern-aware Data Augmentation for Query Rewriting in Voice Assistant
Systems [10.332550622090718]
既存のトレーニングペアからパターンを学習し、ラベルの書き換えから書き換え候補を逆に生成し、不十分なQRトレーニングデータを補う拡張フレームワークを提案する。
実験の結果,QRベースラインを十分に訓練し,低リソース領域やローカライズ領域でのQR性能向上に有効である可能性が示された。
論文 参考訳(メタデータ) (2020-12-21T16:36:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。