論文の概要: More Documents, Same Length: Isolating the Challenge of Multiple Documents in RAG
- arxiv url: http://arxiv.org/abs/2503.04388v1
- Date: Thu, 06 Mar 2025 12:38:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:15.732890
- Title: More Documents, Same Length: Isolating the Challenge of Multiple Documents in RAG
- Title(参考訳): さらなるドキュメント, 同じ長さ: RAGにおける複数のドキュメントの課題を解消する
- Authors: Shahar Levy, Nir Mazor, Lihi Shalmon, Michael Hassid, Gabriel Stanovsky,
- Abstract要約: マルチホップQAタスクから派生したカスタムデータセットの様々な言語モデルを評価する。
我々は文書数を変えながら関連情報のコンテキスト長と位置を一定に保ち、RAG設定における文書数の増加がLCMにとって大きな課題となることを発見した。
- 参考スコア(独自算出の注目度): 15.918767599423857
- License:
- Abstract: Retrieval-augmented generation (RAG) provides LLMs with relevant documents. Although previous studies noted that retrieving many documents can degrade performance, they did not isolate how the quantity of documents affects performance while controlling for context length. We evaluate various language models on custom datasets derived from a multi-hop QA task. We keep the context length and position of relevant information constant while varying the number of documents, and find that increasing the document count in RAG settings poses significant challenges for LLMs. Additionally, our results indicate that processing multiple documents is a separate challenge from handling long contexts. We also make the datasets and code available: https://github.com/shaharl6000/MoreDocsSameLen .
- Abstract(参考訳): Retrieval-augmented Generation (RAG)は、LLMに関連文書を提供する。
過去の研究では、多くの文書を検索すると性能が低下する可能性があるが、文書の量は文脈長を制御しながらパフォーマンスにどのように影響するかを区別しなかった。
マルチホップQAタスクから派生したカスタムデータセットの様々な言語モデルを評価する。
我々は文書数を変えながら関連情報のコンテキスト長と位置を一定に保ち、RAG設定における文書数の増加がLCMにとって大きな課題となることを発見した。
さらに,この結果から,複数の文書の処理が,長いコンテキストの処理とは別の課題であることが示唆された。
データセットとコードは、https://github.com/shaharl6000/MoreDocsSameLen.com/で利用可能です。
関連論文リスト
- HERA: Improving Long Document Summarization using Large Language Models with Context Packaging and Reordering [6.876612430571396]
HERAと呼ばれる新しい要約生成フレームワークを提案する。
まず、その意味構造によって長い文書をセグメンテーションし、同じ事象に関するテキストセグメントを検索し、最後にそれらを並べ替えて入力コンテキストを形成する。
実験の結果,HERAはROUGE,BERTScore,忠実度測定において基礎モデルよりも優れていた。
論文 参考訳(メタデータ) (2025-02-01T14:55:06Z) - M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding [63.33447665725129]
M3DocRAGは、様々な文書コンテキストに柔軟に対応する新しいマルチモーダルRAGフレームワークである。
M3DocRAGは視覚情報を保存しながら、単一の文書や多数の文書を効率的に処理できる。
M3DocVQAはオープンドメインDocVQAを3,000以上のPDFドキュメントと4万以上のページで評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2024-11-07T18:29:38Z) - SEGMENT+: Long Text Processing with Short-Context Language Models [53.40059130780192]
SEGMENT+は、LMが限られたコンテキストウィンドウ内で拡張入力を効率的に処理できるフレームワークである。
SEGMENT+は構造化音符とフィルタリングモジュールを使用して情報の流れを管理し、制御可能かつ解釈可能なシステムを実現する。
論文 参考訳(メタデータ) (2024-10-09T03:40:22Z) - DR-RAG: Applying Dynamic Document Relevance to Retrieval-Augmented Generation for Question-Answering [4.364937306005719]
RAGは最近、質問応答(QA)のような知識集約的なタスクにおいて、LLM(Large Language Models)のパフォーマンスを実証した。
重要な文書とクエリの間には関連性が低いものの,文書の一部とクエリを組み合わせることで,残りの文書を検索できることがわかった。
文書検索のリコールと回答の精度を向上させるために,DR-RAG(Dynamic-Relevant Retrieval-Augmented Generation)と呼ばれる2段階検索フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-11T15:15:33Z) - R4: Reinforced Retriever-Reorder-Responder for Retrieval-Augmented Large Language Models [32.598670876662375]
Retrieval-augmented large language model (LLMs) は、情報検索システムによって取得された関連コンテンツを利用して正しい応答を生成する。
既存のレトリバー・サプライヤ・メソッドは、テキスト生成タスクを実行するために LLM のプロンプトに関連文書を追加するのが一般的である。
検索拡張LDMのための文書順序付けを学習するための新しいパイプライン"Reinforced Retriever-Reorder-Responder"を提案する。
論文 参考訳(メタデータ) (2024-05-04T12:59:10Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - End-to-End Multihop Retrieval for Compositional Question Answering over
Long Documents [93.55268936974971]
本稿では,長い文書の合成問題に答えるマルチホップ検索手法であるDocHopperを提案する。
各ステップでDocHopperは文書から段落や文を検索し、検索した結果とクエリを混合し、次のステップでクエリを更新する。
文書構造を活用すれば、長い文書の質問応答や検索性能を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-01T03:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。