論文の概要: Attention Grounded Enhancement for Visual Document Retrieval
- arxiv url: http://arxiv.org/abs/2511.13415v1
- Date: Mon, 17 Nov 2025 14:28:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.301573
- Title: Attention Grounded Enhancement for Visual Document Retrieval
- Title(参考訳): 視覚的文書検索のための注意基盤強調
- Authors: Wanqing Cui, Wei Huang, Yazhi Guo, Yibo Hu, Meiguang Jin, Junfeng Ma, Keping Bi,
- Abstract要約: 視覚文書検索のためのtextbfAttention-textbfGrounded textbfREtriever textbfEnhancement (AGREE) フレームワークを提案する。
AGREEは、大規模言語モデルからの横断的な注意をプロキシローカル監視として組み合わせ、関連する文書領域の識別をガイドする。
挑戦的なViDoRe V2ベンチマークの実験では、AGREEはグローバルなスーパービジョンのみのベースラインをはるかに上回っている。
- 参考スコア(独自算出の注目度): 12.602988404893305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual document retrieval requires understanding heterogeneous and multi-modal content to satisfy information needs. Recent advances use screenshot-based document encoding with fine-grained late interaction, significantly improving retrieval performance. However, retrievers are still trained with coarse global relevance labels, without revealing which regions support the match. As a result, retrievers tend to rely on surface-level cues and struggle to capture implicit semantic connections, hindering their ability to handle non-extractive queries. To alleviate this problem, we propose a \textbf{A}ttention-\textbf{G}rounded \textbf{RE}triever \textbf{E}nhancement (AGREE) framework. AGREE leverages cross-modal attention from multimodal large language models as proxy local supervision to guide the identification of relevant document regions. During training, AGREE combines local signals with the global signals to jointly optimize the retriever, enabling it to learn not only whether documents match, but also which content drives relevance. Experiments on the challenging ViDoRe V2 benchmark show that AGREE significantly outperforms the global-supervision-only baseline. Quantitative and qualitative analyses further demonstrate that AGREE promotes deeper alignment between query terms and document regions, moving beyond surface-level matching toward more accurate and interpretable retrieval. Our code is available at: https://anonymous.4open.science/r/AGREE-2025.
- Abstract(参考訳): ビジュアル文書検索は、情報要求を満たすために異種および多モードのコンテンツを理解する必要がある。
最近の進歩は、細粒度な遅延相互作用を持つスクリーンショットベースの文書符号化を使用して、検索性能を著しく改善している。
しかし、レトリバーは、どの地域がマッチをサポートするかを明らかにすることなく、いまだに粗いグローバル関連ラベルで訓練されている。
その結果、検索者は表面レベルのキューに頼り、暗黙的なセマンティック接続をキャプチャするのに苦労する傾向にあり、非抽出クエリの処理能力を妨げている。
この問題を緩和するため,本研究では,textbf{A}ttention-\textbf{G}rounded \textbf{RE}triever \textbf{E}nhancement (AGREE) フレームワークを提案する。
AGREEは、マルチモーダルな大規模言語モデルからのクロスモーダルな注意をプロキシローカル監視として利用し、関連する文書領域の識別をガイドする。
トレーニング中、AGREEはローカル信号とグローバル信号を組み合わせてレトリバーを共同で最適化し、ドキュメントが一致するかどうかだけでなく、どのコンテンツが関連性を促進するかを学習する。
挑戦的なViDoRe V2ベンチマークの実験では、AGREEはグローバルなスーパービジョンのみのベースラインをはるかに上回っている。
さらに定量的、質的な分析により、AGREEはクエリ用語と文書領域のより深い整合を促進し、より正確で解釈可能な検索に向かって表面レベルのマッチングを超えて進んでいることが示される。
私たちのコードは、https://anonymous.4open.science/r/AGREE-2025で利用可能です。
関連論文リスト
- RegionRAG: Region-level Retrieval-Augumented Generation for Visually-Rich Documents [40.107303323097646]
Modelnameは、検索パラダイムをドキュメントレベルからリージョンレベルにシフトする、新しいフレームワークです。
6つのベンチマークの実験は、RereaRAGが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-10-31T08:00:32Z) - Hierarchical Lexical Graph for Enhanced Multi-Hop Retrieval [22.33550491040999]
RAGは、大きな言語モデルを外部の証拠に基礎を置いているが、セマンティックに遠く離れた文書で答えをまとめなければならないと、いまだに混乱している。
私たちは、StatementGraphRAGとTopicGraphRAGという2つのプラグイン・アンド・プレイレトリバーを構築します。
提案手法は,検索リコールと正当性において平均23.1%の相対的改善を達成し,有意なチャンクベースRAGよりも優れていた。
論文 参考訳(メタデータ) (2025-06-09T17:58:35Z) - Cognitive-Aligned Document Selection for Retrieval-augmented Generation [2.9060210098040855]
本稿では,クエリを動的に更新し,高品質で信頼性の高い検索文書をフィルタリングするGGatrievalを提案する。
ユーザクエリを構文コンポーネントにパースし、検索したドキュメントときめ細かいグラウンドアライメントを実行する。
提案手法では,検索した文書をフィルタリングするための新しい基準を導入し,ターゲット情報を取得するための人的戦略を密にエミュレートする。
論文 参考訳(メタデータ) (2025-02-17T13:00:15Z) - GeAR: Generation Augmented Retrieval [82.20696567697016]
本稿では,新しい方法であるtextbfGe$nerationを紹介する。
対照的な学習を通じて、グローバルなドキュメントクエリの類似性を改善すると同時に、よく設計されたフュージョンとデコードモジュールを統合する。
検索機として使用する場合、GeARはバイエンコーダよりも計算コストがかかることはない。
論文 参考訳(メタデータ) (2025-01-06T05:29:00Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。