論文の概要: Look in the Middle: Structural Anchor Pruning for Scalable Visual RAG Indexing
- arxiv url: http://arxiv.org/abs/2601.20107v1
- Date: Tue, 27 Jan 2026 22:50:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.690448
- Title: Look in the Middle: Structural Anchor Pruning for Scalable Visual RAG Indexing
- Title(参考訳): 中間に見える: スケーラブルなビジュアルRAGインデクシングのための構造的アンカープニング
- Authors: Zhuchenyang Liu, Ziyu Hu, Yao Zhang, Yu Xiao,
- Abstract要約: 最近のVision-Language Models(例えばColPali)は、細粒度のVisual Document Retrieval(VDR)を実現するが、インデックスベクトルサイズを禁止している。
本研究では,中層からの鍵となる視覚的パッチを識別し,高性能な圧縮を実現するための学習自由プルーニング手法であるStructure Anchor Pruning (SAP)を提案する。
- 参考スコア(独自算出の注目度): 11.750217913598057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Vision-Language Models (e.g., ColPali) enable fine-grained Visual Document Retrieval (VDR) but incur prohibitive index vector size overheads. Training-free pruning solutions (e.g., EOS-attention based methods) can reduce index vector size by approximately 60% without model adaptation, but often underperform random selection in high-compression scenarios (> 80%). Prior research (e.g., Light-ColPali) attributes this to the conclusion that visual token importance is inherently query-dependent, thereby questioning the feasibility of training-free pruning. In this work, we propose Structural Anchor Pruning (SAP), a training-free pruning method that identifies key visual patches from middle layers to achieve high performance compression. We also introduce Oracle Score Retention (OSR) protocol to evaluate how layer-wise information affects compression efficiency. Evaluations on the ViDoRe benchmark demonstrate that SAP reduces index vectors by over 90% while maintaining robust retrieval fidelity, providing a highly scalable solution for Visual RAG. Furthermore, our OSR-based analysis reveals that semantic structural anchor patches persist in the middle layers, unlike traditional pruning solutions that focus on the final layer where structural signals dissipate.
- Abstract(参考訳): 最近のVision-Language Models(例えばColPali)は、細粒度のVisual Document Retrieval(VDR)を実現するが、インデックスベクトルサイズを禁止している。
トレーニングフリープルーニングソリューション(例:EOS-attention based method)は、モデル適応なしにインデックスベクトルサイズを約60%削減できるが、高圧縮シナリオ(>80%)ではランダム選択が低パフォーマンスであることが多い。
以前の研究(例:Light-ColPali)では、視覚的トークンの重要性は本質的にクエリに依存しているという結論から、トレーニング不要プルーニングの可能性に疑問が呈されている。
本研究では,中層から鍵となる視覚パッチを識別し,高性能な圧縮を実現する学習自由プルーニング手法であるStructure Anchor Pruning (SAP)を提案する。
また、Oracle Score Retention (OSR)プロトコルを導入し、レイヤワイド情報が圧縮効率にどのように影響するかを評価する。
ViDoReベンチマークの評価によると、SAPは堅牢な検索精度を維持しながらインデックスベクトルを90%以上削減し、Visual RAGの高度にスケーラブルなソリューションを提供する。
さらに,OSRをベースとした解析により,構造信号が拡散する最終層に焦点をあてる従来のプルーニングソリューションとは異なり,中間層にセマンティックな構造的アンカーアパッチが持続していることが明らかになった。
関連論文リスト
- Unleashing Degradation-Carrying Features in Symmetric U-Net: Simpler and Stronger Baselines for All-in-One Image Restoration [52.82397287366076]
オールインワン画像復元は、統合された枠組み内で様々な劣化(ノイズ、ぼかし、悪天候など)を扱うことを目的としている。
本研究では, 優れた特徴抽出法により, 劣化伝達情報を本質的にエンコードする, 重要な知見を明らかにする。
我々の対称設計は固有の劣化信号を頑健に保存し、スキップ接続に単純な加法融合を施す。
論文 参考訳(メタデータ) (2025-12-11T12:20:31Z) - A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models [94.49953824684853]
人間の認知に触発された動的刈り取りフレームワークGlimpsePruneを導入する。
データ駆動の 'glimpse' を受け取り、応答生成の前に単一のフォワードパスで無関係な視覚トークンをプルーンする。
強化されたGlimpsePrune+は、同様に高いプルーニング率を維持しながら、ベースライン性能の110%を達成する。
論文 参考訳(メタデータ) (2025-08-03T02:15:43Z) - TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation [48.61855865678161]
視覚的自己回帰(VAR)モデルのための、最初の一般的なテスト時間スケーリングフレームワークを提示する。
クラスタリングに基づく多様性探索と再サンプリングに基づく潜在的選択を提案する。
強力なVARモデルであるInfinityの実験は、注目すべき8.7%のGenEvalスコアの改善を示している。
論文 参考訳(メタデータ) (2025-07-24T16:04:55Z) - High-Layer Attention Pruning with Rescaling [14.141903038286362]
プルーニングは大規模言語モデル(LLM)の圧縮に非常に効果的な手法である
本稿では,モデル上層における注意を戦略的に喚起する新しいプルーニングアルゴリズムを提案する。
我々は, LLaMA3.1-8B, Mistral-7B-v0.3, Qwen2-7B, Gemma2-9Bを含む広範囲のLLMについて総合的な実験を行った。
論文 参考訳(メタデータ) (2025-07-02T17:15:05Z) - Semantic Hierarchical Prompt Tuning for Parameter-Efficient Fine-Tuning [13.384550074613717]
Visual Prompt Tuningは、フル微調整に比べて優れたパフォーマンスで知られている。
船は性能を大幅に改善し、VTAB-1kタスクのVT-B/16バックボーンでVPTよりも精度が4.9%向上した。
論文 参考訳(メタデータ) (2024-12-22T10:28:52Z) - Pruning All-Rounder: Rethinking and Improving Inference Efficiency for Large Vision Language Models [42.124670377223175]
我々は Pruning All-Rounder (PAR) と呼ばれる推論加速のための新しいフレームワークを提案する。
PARは自己教師付き学習方式により、パフォーマンスと効率のバランスが優れている。特に、PARは高い柔軟性を持ち、様々なアクセラレーションシナリオに対処する複数のプルーニングバージョンを提供する。
論文 参考訳(メタデータ) (2024-12-09T13:02:35Z) - Mind the Backbone: Minimizing Backbone Distortion for Robust Object
Detection [52.355018626115346]
ドメインシフトに対して堅牢なオブジェクト検出器を構築することは、現実世界のアプリケーションにとって重要なことです。
我々は,ゆがみを特徴付けるバックボーンの脆弱性を測定する手段として,相対勾配ノルム(Relative Gradient Norm)を提案する。
両バックボーンのOOD堅牢性を高めるためのレシピを提案する。
論文 参考訳(メタデータ) (2023-03-26T14:50:43Z) - COPS: Controlled Pruning Before Training Starts [68.8204255655161]
最先端のディープニューラルネットワーク(DNN)プルーニング技術は、トレーニング開始前にワンショットで適用され、プルーニングスコアと呼ばれる単一の基準の助けを借りてスパースアーキテクチャを評価する。
この作業では、単一プルーニング基準に集中するのではなく、任意のGASを組み合わせてより強力なプルーニング戦略を構築するためのフレームワークを提供します。
論文 参考訳(メタデータ) (2021-07-27T08:48:01Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。