Fugu-MT 論文翻訳(概要): More Documents, Same Length: Isolating the Challenge of Multiple Documents in RAG

論文の概要: More Documents, Same Length: Isolating the Challenge of Multiple Documents in RAG

arxiv url: http://arxiv.org/abs/2503.04388v1
Date: Thu, 06 Mar 2025 12:38:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-07 17:59:00.830338
Title: More Documents, Same Length: Isolating the Challenge of Multiple Documents in RAG
Title（参考訳）: さらなるドキュメント, 同じ長さ: RAGにおける複数のドキュメントの課題を解消する
Authors: Shahar Levy, Nir Mazor, Lihi Shalmon, Michael Hassid, Gabriel Stanovsky,
Abstract要約: マルチホップQAタスクから派生したカスタムデータセットの様々な言語モデルを評価する。我々は文書数を変えながら関連情報のコンテキスト長と位置を一定に保ち、RAG設定における文書数の増加がLCMにとって大きな課題となることを発見した。
参考スコア（独自算出の注目度）: 15.918767599423857
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Retrieval-augmented generation (RAG) provides LLMs with relevant documents. Although previous studies noted that retrieving many documents can degrade performance, they did not isolate how the quantity of documents affects performance while controlling for context length. We evaluate various language models on custom datasets derived from a multi-hop QA task. We keep the context length and position of relevant information constant while varying the number of documents, and find that increasing the document count in RAG settings poses significant challenges for LLMs. Additionally, our results indicate that processing multiple documents is a separate challenge from handling long contexts. We also make the datasets and code available: https://github.com/shaharl6000/MoreDocsSameLen .
Abstract（参考訳）: Retrieval-augmented Generation (RAG)は、LLMに関連文書を提供する。過去の研究では、多くの文書を検索すると性能が低下する可能性があるが、文書の量は文脈長を制御しながらパフォーマンスにどのように影響するかを区別しなかった。マルチホップQAタスクから派生したカスタムデータセットの様々な言語モデルを評価する。我々は文書数を変えながら関連情報のコンテキスト長と位置を一定に保ち、RAG設定における文書数の増加がLCMにとって大きな課題となることを発見した。さらに,この結果から,複数の文書の処理が,長いコンテキストの処理とは別の課題であることが示唆された。データセットとコードは、https://github.com/shaharl6000/MoreDocsSameLen.com/で利用可能です。

関連論文リスト

AttentionRetriever: Attention Layers are Secretly Long Document Retrievers [19.24683110020638]
Retrieval augmented generation(RAG)は、Large Language Models(LLM)が長いドキュメントを含むタスクを処理するのを助けるために広く採用されている。既存の検索モデルは、長い文書検索のために設計されておらず、コンテキスト認識、因果依存、検索の範囲など、いくつかの重要な課題に対処できない。我々は、注意機構とエンティティベースの検索を活用して、長期文書のためのコンテキスト認識埋め込みを構築する新しい長期文書検索モデルであるAttentionRetrieverを提案する。
論文参考訳（メタデータ） (2026-02-12T18:59:35Z)
Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文参考訳（メタデータ） (2025-11-28T03:09:40Z)
Enhancing Document VQA Models via Retrieval-Augmented Generation [1.6769365072542683]
ドキュメントVQAは数十ページに及ぶドキュメントに対処しなければならないが、主要なシステムは依然として非常に大きな視覚言語モデルに依存している。 Retrieval-Augmented Generation (RAG) は魅力的な代替手段を提供する。
論文参考訳（メタデータ） (2025-08-26T12:32:55Z)
Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文参考訳（メタデータ） (2025-07-19T16:03:34Z)
Document Haystack: A Long Context Multimodal Image/Document Understanding Vision LLM Benchmark [6.722613897911759]
Document Haystackは、長いドキュメント上での視覚言語モデル(VLM)のパフォーマンスを評価するために設計されたベンチマークである。 Document Haystackは5ページから200ページに及ぶドキュメントを特徴とし、文書内の様々な深さで、純粋なテキストやマルチモーダルテキスト+イメージを戦略的に挿入する。
論文参考訳（メタデータ） (2025-07-18T19:33:15Z)
On the Reproducibility of Learned Sparse Retrieval Adaptations for Long Documents [2.186901738997927]
長い文書にLearned Sparse Retrieval(LSR)を適用するメカニズムを再現し検討する。実験の結果,文書検索性能は第1セグメントが支配的であり,各セグメントの重要性が確認された。提案手法であるExactSDMとSoftSDMを文書の長さによって再評価した。
論文参考訳（メタデータ） (2025-03-31T08:19:31Z)
HERA: Improving Long Document Summarization using Large Language Models with Context Packaging and Reordering [6.876612430571396]
HERAと呼ばれる新しい要約生成フレームワークを提案する。まず、その意味構造によって長い文書をセグメンテーションし、同じ事象に関するテキストセグメントを検索し、最後にそれらを並べ替えて入力コンテキストを形成する。実験の結果,HERAはROUGE,BERTScore,忠実度測定において基礎モデルよりも優れていた。
論文参考訳（メタデータ） (2025-02-01T14:55:06Z)
M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding [63.33447665725129]
M3DocRAGは、様々な文書コンテキストに柔軟に対応する新しいマルチモーダルRAGフレームワークである。 M3DocRAGは視覚情報を保存しながら、単一の文書や多数の文書を効率的に処理できる。 M3DocVQAはオープンドメインDocVQAを3,000以上のPDFドキュメントと4万以上のページで評価するための新しいベンチマークである。
論文参考訳（メタデータ） (2024-11-07T18:29:38Z)
SV-RAG: LoRA-Contextualizing Adaptation of MLLMs for Long Document Understanding [103.69014172427026]
マルチモーダルな大言語モデル(MLLM)は、最近、テキストに富んだ画像理解において大きな進歩を見せている。長文書理解を支援するため,任意のMLLMの地平線を拡大できる,**S**elf-**V*isual **R***A*ugmented **G**eneration (SV-RAG) という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-02T02:09:01Z)
SEGMENT+: Long Text Processing with Short-Context Language Models [53.40059130780192]
SEGMENT+は、LMが限られたコンテキストウィンドウ内で拡張入力を効率的に処理できるフレームワークである。 SEGMENT+は構造化音符とフィルタリングモジュールを使用して情報の流れを管理し、制御可能かつ解釈可能なシステムを実現する。
論文参考訳（メタデータ） (2024-10-09T03:40:22Z)
DR-RAG: Applying Dynamic Document Relevance to Retrieval-Augmented Generation for Question-Answering [4.364937306005719]
RAGは最近、質問応答(QA)のような知識集約的なタスクにおいて、LLM(Large Language Models)のパフォーマンスを実証した。重要な文書とクエリの間には関連性が低いものの,文書の一部とクエリを組み合わせることで,残りの文書を検索できることがわかった。文書検索のリコールと回答の精度を向上させるために,DR-RAG(Dynamic-Relevant Retrieval-Augmented Generation)と呼ばれる2段階検索フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-11T15:15:33Z)
PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文参考訳（メタデータ） (2023-09-16T04:29:05Z)
Continual Learning for Generative Retrieval over Dynamic Corpora [115.79012933205756]
生成検索(GR)はパラメトリックモデルに基づいて関連文書の識別子(ドシデクス)を直接予測する。クエリに応答する能力を保ちながら、新しいドキュメントをインクリメンタルにインデックスする能力は、GRモデルを適用する上で不可欠である。我々は,CLEVERモデルのための新しい連続学習モデルを提案し,GRのための連続学習に2つの大きな貢献をした。
論文参考訳（メタデータ） (2023-08-29T01:46:06Z)
DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文参考訳（メタデータ） (2023-06-15T08:21:15Z)
DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。 State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文参考訳（メタデータ） (2023-05-23T10:39:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。