論文の概要: RegionRAG: Region-level Retrieval-Augumented Generation for Visually-Rich Documents
- arxiv url: http://arxiv.org/abs/2510.27261v1
- Date: Fri, 31 Oct 2025 08:00:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.030032
- Title: RegionRAG: Region-level Retrieval-Augumented Generation for Visually-Rich Documents
- Title(参考訳): RegionRAG: ビジュアルリッチ文書のための領域レベルの検索型生成
- Authors: Yinglu Li, Zhiying Lu, Zhihang Liu, Chuanbin Liu, Hongtao Xie,
- Abstract要約: Modelnameは、検索パラダイムをドキュメントレベルからリージョンレベルにシフトする、新しいフレームワークです。
6つのベンチマークの実験は、RereaRAGが最先端のパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 40.107303323097646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal Retrieval-Augmented Generation (RAG) has become a critical method for empowering LLMs by leveraging candidate visual documents. However, current methods consider the entire document as the basic retrieval unit, introducing substantial irrelevant visual content in two ways: 1) Relevant documents often contain large regions unrelated to the query, diluting the focus on salient information; 2) Retrieving multiple documents to increase recall further introduces redundant and irrelevant documents. These redundant contexts distract the model's attention and further degrade the performance. To address this challenge, we propose \modelname, a novel framework that shifts the retrieval paradigm from the document level to the region level. During training, we design a hybrid supervision strategy from both labeled data and unlabeled data to pinpoint relevant patches. During inference, we propose a dynamic pipeline that intelligently groups salient patches into complete semantic regions. By delegating the task of identifying relevant regions to the retriever, \modelname enables the generator to focus solely on concise visual content relevant to queries, improving both efficiency and accuracy. Experiments on six benchmarks demonstrate that RegionRAG achieves state-of-the-art performance. Improves retrieval accuracy by 10.02\% in R@1 on average and increases question answering accuracy by 3.56\% while using only 71.42\% visual tokens compared to prior methods. The code will be available at https://github.com/Aeryn666/RegionRAG.
- Abstract(参考訳): マルチモーダル検索・拡張生成(RAG)は,候補となる視覚文書を活用することでLLMの強化に重要な手法となっている。
しかし、現在の手法では、文書全体を基本的な検索単位とみなし、実質的に無関係な視覚コンテンツを2つの方法で導入している。
1)関連書類は、しばしば、問い合わせに関係のない大きな領域を包含し、有能な情報に焦点を絞り込む。
2)リコールを増やすために複数の文書を取得することは、さらに冗長で無関係な文書を導入する。
これらの冗長なコンテキストはモデルの注意をそらし、パフォーマンスをさらに低下させます。
この課題に対処するために,検索パラダイムを文書レベルから地域レベルにシフトさせる新しいフレームワークである \modelname を提案する。
トレーニング中、ラベル付きデータとラベルなしデータの両方から、関連するパッチをピンポイントするハイブリッド監視戦略を設計する。
推論中は、適切なパッチを完全なセマンティック領域にインテリジェントにグループ化する動的パイプラインを提案する。
関連領域をレトリバーに識別するタスクを委譲することで、生成元はクエリに関連する簡潔なビジュアルコンテンツのみに集中でき、効率と精度が向上する。
6つのベンチマークの実験は、RereaRAGが最先端のパフォーマンスを達成することを示した。
R@1の平均での検索精度は10.02\%向上し、質問応答精度は3.56\%向上する。
コードはhttps://github.com/Aeryn666/RegionRAGで入手できる。
関連論文リスト
- Hierarchical Lexical Graph for Enhanced Multi-Hop Retrieval [22.33550491040999]
RAGは、大きな言語モデルを外部の証拠に基礎を置いているが、セマンティックに遠く離れた文書で答えをまとめなければならないと、いまだに混乱している。
私たちは、StatementGraphRAGとTopicGraphRAGという2つのプラグイン・アンド・プレイレトリバーを構築します。
提案手法は,検索リコールと正当性において平均23.1%の相対的改善を達成し,有意なチャンクベースRAGよりも優れていた。
論文 参考訳(メタデータ) (2025-06-09T17:58:35Z) - Quam: Adaptive Retrieval through Query Affinity Modelling [15.3583908068962]
ユーザ情報要求に基づいて文書をランク付けする関連モデルを構築することは,情報検索とNLPコミュニティの中心的な課題である。
提案するQuamにより,適応検索の初期段階の統一的な視点を提案する。
提案手法であるQuamは,リコール性能を26%向上させる。
論文 参考訳(メタデータ) (2024-10-26T22:52:12Z) - Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - DR-RAG: Applying Dynamic Document Relevance to Retrieval-Augmented Generation for Question-Answering [4.364937306005719]
RAGは最近、質問応答(QA)のような知識集約的なタスクにおいて、LLM(Large Language Models)のパフォーマンスを実証した。
重要な文書とクエリの間には関連性が低いものの,文書の一部とクエリを組み合わせることで,残りの文書を検索できることがわかった。
文書検索のリコールと回答の精度を向上させるために,DR-RAG(Dynamic-Relevant Retrieval-Augmented Generation)と呼ばれる2段階検索フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-11T15:15:33Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。