論文の概要: UHR-BAT: Budget-Aware Token Compression Vision-Language model for Ultra-High-Resolution Remote Sensing
- arxiv url: http://arxiv.org/abs/2604.13565v1
- Date: Wed, 15 Apr 2026 07:21:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.431634
- Title: UHR-BAT: Budget-Aware Token Compression Vision-Language model for Ultra-High-Resolution Remote Sensing
- Title(参考訳): UHR-BAT:超高分解能リモートセンシングのための予算対応トーケン圧縮ビジョンランゲージモデル
- Authors: Yunkai Dang, Minxin Dai, Yuekun Yang, Zhangnan Li, Wenbin Li, Feng Miao, Yang Gao,
- Abstract要約: UHR-BATは、クエリ誘導および領域依存のトークン圧縮フレームワークである。
視覚トークンに対するテキスト誘導型マルチスケール重要度推定を利用する。
その結果,UHR-BATは様々なベンチマークで最先端のパフォーマンスを実現することがわかった。
- 参考スコア(独自算出の注目度): 8.184730055799978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ultra-high-resolution (UHR) remote sensing imagery couples kilometer-scale context with query-critical evidence that may occupy only a few pixels. Such vast spatial scale leads to a quadratic explosion of visual tokens and hinders the extraction of information from small objects. Previous works utilize direct downsampling, dense tiling, or global top-k pruning, which either compromise query-critical image details or incur unpredictable compute. In this paper, we propose UHR-BAT, a query-guided and region-faithful token compression framework to efficiently select visual tokens under a strict context budget. Specifically, we leverage text-guided, multi-scale importance estimation for visual tokens, effectively tackling the challenge of achieving precise yet low-cost feature extraction. Furthermore, by introducing region-wise preserve and merge strategies, we mitigate visual token redundancy, further driving down the computational budget. Experimental results show that UHR-BAT achieves state-of-the-art performance across various benchmarks. Code will be available at https://github.com/Yunkaidang/UHR.
- Abstract(参考訳): 超高解像度(UHR)リモートセンシング画像は、数ピクセルしか占めないクエリクリティカルな証拠と、キロスケールのコンテキストを結合する。
このような広大な空間スケールは、視覚トークンの二次的な爆発を引き起こし、小さな物体からの情報の抽出を妨げる。
以前の作業では、クエリクリティカルなイメージの詳細を妥協するか、予測不能な計算を行う、直接的なダウンサンプリング、高密度なタイリング、あるいはグローバルなトップkプルーニングが使用されている。
本稿では,厳密なコンテキスト予算の下で視覚的トークンを効率的に選択するためのクエリ誘導型かつ領域忠実なトークン圧縮フレームワークであるUHR-BATを提案する。
具体的には、テキスト誘導型マルチスケール重要度推定を視覚トークンに適用し、正確にかつ低コストな特徴抽出を実現するという課題を効果的に解決する。
さらに、領域保存とマージ戦略を導入することにより、視覚的トークンの冗長性を緩和し、計算予算をさらに削減する。
実験の結果,UHR-BATは様々なベンチマークで最先端の性能を達成できた。
コードはhttps://github.com/Yunkaidang/UHR.comで入手できる。
関連論文リスト
- VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions [51.41587958253802]
視覚情報を捨てることなく推論コストを削減するVISOR(VISion On Request)を導入する。
VISORは画像とテキストトークン間の相互作用をスパースすることで効率を向上する。
実験により、VISORは、最先端の結果を一致または超えながら、計算コストを大幅に削減することが示された。
論文 参考訳(メタデータ) (2026-03-24T17:58:17Z) - Focus-Scan-Refine: From Human Visual Perception to Efficient Visual Token Pruning [78.75062483648243]
視覚言語モデル(VLM)は、しばしば大量の視覚トークンを生成し、推論遅延とメモリフットプリントを大幅に増加させる。
視覚的質問に対して人間がどのように答えるかを模倣する,人間にインスパイアされたプラグアンドプレイプルーニングフレームワークであるFSRを提案する。
FSRは、既存の最先端プルーニング法よりも精度と効率のトレードオフを一貫して改善する。
論文 参考訳(メタデータ) (2026-02-05T16:02:48Z) - ZSPAPrune: Zero-Shot Prompt-Aware Token Pruning for Vision-Language Models [7.7352936204066]
本稿では,タスク関連性と情報多様性のバランスとして,視覚トークンプルーニングをモデル化する新しいゼロショット手法を提案する。
本手法は,精度の低下を最小限に抑えて,最先端技術に適合または超越した性能を実現する。
これらのゲインには、GPUメモリフットプリントの大幅な削減と推論レイテンシが伴っている。
論文 参考訳(メタデータ) (2025-10-20T06:18:47Z) - ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models [11.263321053154364]
ERGOは推論駆動の知覚平均化マルチモーダルコンテキストで、どこにフォーカスするかを決定する。
我々は、粗大な知覚のための強化学習フレームワークにおいて、単純で効果的な報酬成分を開発する。
提案手法は,従来のモデルや競合手法よりも精度が高く,効率が向上する。
論文 参考訳(メタデータ) (2025-09-26T07:15:19Z) - Pyramid Token Pruning for High-Resolution Large Vision-Language Models via Region, Token, and Instruction-Guided Importance [60.028070589466445]
Pyramid Token Pruning (PTP) は、階層的にボトムアップの視覚的サリエンスとトークンレベルをトップダウンの指導誘導の関連性と統合する、トレーニング不要の戦略である。
PTPは計算コスト、メモリ使用量、推論遅延を大幅に削減し、性能劣化を無視できることを示した。
論文 参考訳(メタデータ) (2025-09-19T07:28:17Z) - VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning [95.89543460132413]
視覚言語モデル(VLM)は、視覚トークンの数を増やすことで性能を改善した。
しかし、現実世界のシナリオの多くは、このような膨大な数の視覚トークンを必要としない。
視覚的トークン圧縮(VisionThink)のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2025-07-17T17:59:55Z) - When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning [31.696397337675847]
LVLM(Large Vision-Language Models)は通常、画像処理に限定された事前定義されたグリッドを使用する。
動的画像ピラミッド(DIP)を統合したテキスト誘導型トークンプルーニング手法を提案する。
提案手法は,同一データを用いた4つのデータセットにおける既存の高分解能戦略よりも優れる。
論文 参考訳(メタデータ) (2025-03-10T17:51:16Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。