論文の概要: URaG: Unified Retrieval and Generation in Multimodal LLMs for Efficient Long Document Understanding
- arxiv url: http://arxiv.org/abs/2511.10552v1
- Date: Fri, 14 Nov 2025 01:57:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.923838
- Title: URaG: Unified Retrieval and Generation in Multimodal LLMs for Efficient Long Document Understanding
- Title(参考訳): URaG: 効率的な長期文書理解のためのマルチモーダルLLMの統一検索と生成
- Authors: Yongxin Shi, Jiapeng Wang, Zeyu Shan, Dezhi Peng, Zening Lin, Lianwen Jin,
- Abstract要約: MLLM内での検索と生成を統一するフレームワークであるURaGについて述べる。
URaGは,計算オーバーヘッドを44~56%削減し,最先端性能を実現する。
- 参考スコア(独自算出の注目度): 55.45331924836242
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent multimodal large language models (MLLMs) still struggle with long document understanding due to two fundamental challenges: information interference from abundant irrelevant content, and the quadratic computational cost of Transformer-based architectures. Existing approaches primarily fall into two categories: token compression, which sacrifices fine-grained details; and introducing external retrievers, which increase system complexity and prevent end-to-end optimization. To address these issues, we conduct an in-depth analysis and observe that MLLMs exhibit a human-like coarse-to-fine reasoning pattern: early Transformer layers attend broadly across the document, while deeper layers focus on relevant evidence pages. Motivated by this insight, we posit that the inherent evidence localization capabilities of MLLMs can be explicitly leveraged to perform retrieval during the reasoning process, facilitating efficient long document understanding. To this end, we propose URaG, a simple-yet-effective framework that Unifies Retrieval and Generation within a single MLLM. URaG introduces a lightweight cross-modal retrieval module that converts the early Transformer layers into an efficient evidence selector, identifying and preserving the most relevant pages while discarding irrelevant content. This design enables the deeper layers to concentrate computational resources on pertinent information, improving both accuracy and efficiency. Extensive experiments demonstrate that URaG achieves state-of-the-art performance while reducing computational overhead by 44-56%. The code is available at https://github.com/shi-yx/URaG.
- Abstract(参考訳): 最近のマルチモーダル大規模言語モデル(MLLM)は、豊富な無関係コンテンツからの情報干渉とトランスフォーマーベースのアーキテクチャの2次計算コストという2つの根本的な課題のために、長い文書理解に苦慮している。
既存のアプローチは主に、細かな詳細を犠牲にするトークン圧縮と、システムの複雑さを高め、エンドツーエンドの最適化を防ぐ外部レトリバーの2つのカテゴリに分類される。
これらの問題に対処するため、我々は詳細な分析を行い、MLLMが人間のような粗い推論パターンを示すことを観察する。
この知見により,MLLMの本質的なエビデンスローカライゼーション能力は,推論過程における検索を明示的に活用し,より効率的な長期文書理解を容易にすることができると仮定した。
この目的のために,単一MLLM内での検索と生成を統一する,シンプルなyet- EffectiveフレームワークであるURaGを提案する。
URaGは軽量なクロスモーダル検索モジュールを導入し、初期のトランスフォーマー層を効率的なエビデンスセレクタに変換し、無関係なコンテンツを破棄しながら、最も関連性の高いページを特定し保存する。
この設計により、深い層が関連する情報に計算資源を集中させ、精度と効率の両方を改善することができる。
URaGは、計算オーバーヘッドを44~56%削減し、最先端の性能を達成することを実証した。
コードはhttps://github.com/shi-yx/URaGで公開されている。
関連論文リスト
- Rethinking On-policy Optimization for Query Augmentation [49.87723664806526]
本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。
そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
論文 参考訳(メタデータ) (2025-10-20T04:16:28Z) - REFRAG: Rethinking RAG based Decoding [67.4862300145604]
REFRAGは効率的なデコードフレームワークで、RAGアプリケーションの遅延を圧縮し、感知し、拡張し、改善する。
本稿では,RAG,マルチターン会話,長期文書要約など,多種多様な長文タスクを対象としたREFRAGの厳密な検証を行う。
論文 参考訳(メタデータ) (2025-09-01T03:31:44Z) - Parametric Retrieval Augmented Generation [32.29608109539912]
Parametric RAGは、外部知識を直接フィードフォワードネットワークのパラメータに統合する新しいRAGパラダイムである。
これは、大きな言語モデルにおける知識増強の有効性と効率を大幅に向上させる。
論文 参考訳(メタデータ) (2025-01-27T10:04:49Z) - Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。
この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。
提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文 参考訳(メタデータ) (2024-12-24T16:38:04Z) - Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。
検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。
生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文 参考訳(メタデータ) (2024-11-11T14:25:37Z) - PECAN: LLM-Guided Dynamic Progress Control with Attention-Guided Hierarchical Weighted Graph for Long-Document QA [16.945257645760428]
長期文書QAは、大規模テキストと長距離依存関係による課題を提示する。
LLM(Large Language Models)の最近の進歩により、ドキュメント全体を単一のパスで処理できるようになった。
LLM注目重みによってエッジを導出する階層グラフを構築する新しい検索手法を提案する。
論文 参考訳(メタデータ) (2024-10-07T07:02:09Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Multi-Head RAG: Solving Multi-Aspect Problems with LLMs [18.48202014877111]
MRAG(Multi-Head RAG)は、マルチアスペクト文書を取得するための新しいスキームである。
MRAGは18RAGベースラインに対して設計上の優位性を示し,検索成功率の最大20%を実証的に改善した。
論文 参考訳(メタデータ) (2024-06-07T16:59:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。