論文の概要: Q-Zoom: Query-Aware Adaptive Perception for Efficient Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2604.06912v1
- Date: Wed, 08 Apr 2026 10:12:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.474416
- Title: Q-Zoom: Query-Aware Adaptive Perception for Efficient Multimodal Large Language Models
- Title(参考訳): Q-Zoom: 効率的なマルチモーダル大言語モデルに対するクエリ対応型適応認識
- Authors: Yuheng Shi, Xiaohuan Pei, Linfeng Wen, Minjing Dong, Chang Xu,
- Abstract要約: Q-Zoomはクエリ対応の適応型高解像度認識フレームワークである。
軽量ゲーティングネットワークは、粗いグローバルな特徴が十分である場合に、高解像度処理を安全にバイパスする。
自己蒸留領域ネットワークは、中間特徴空間からタスク関連領域を正確にローカライズする。
- 参考スコア(独自算出の注目度): 41.32939197803798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: MLLMs require high-resolution visual inputs for fine-grained tasks like document understanding and dense scene perception. However, current global resolution scaling paradigms indiscriminately flood the quadratic self-attention mechanism with visually redundant tokens, severely bottlenecking inference throughput while ignoring spatial sparsity and query intent. To overcome this, we propose Q-Zoom, a query-aware adaptive high-resolution perception framework that operates in an efficient coarse-to-fine manner. First, a lightweight Dynamic Gating Network safely bypasses high-resolution processing when coarse global features suffice. Second, for queries demanding fine-grained perception, a Self-Distilled Region Proposal Network (SD-RPN) precisely localizes the task-relevant Region-of-Interest (RoI) directly from intermediate feature spaces. To optimize these modules efficiently, the gating network uses a consistency-aware generation strategy to derive deterministic routing labels, while the SD-RPN employs a fully self-supervised distillation paradigm. A continuous spatio-temporal alignment scheme and targeted fine-tuning then seamlessly fuse the dense local RoI with the coarse global layout. Extensive experiments demonstrate that Q-Zoom establishes a dominant Pareto frontier. Using Qwen2.5-VL-7B as a primary testbed, Q-Zoom accelerates inference by 2.52 times on Document & OCR benchmarks and 4.39 times in High-Resolution scenarios while matching the baseline's peak accuracy. Furthermore, when configured for maximum perceptual fidelity, Q-Zoom surpasses the baseline's peak performance by 1.1% and 8.1% on these respective benchmarks. These robust improvements transfer seamlessly to Qwen3-VL, LLaVA, and emerging RL-based thinking-with-image models. Project page is available at https://yuhengsss.github.io/Q-Zoom/.
- Abstract(参考訳): MLLMは、文書理解や密集したシーン認識といった細かいタスクに対して、高解像度の視覚入力を必要とする。
しかし、現在のグローバル解像度スケーリングのパラダイムは、空間空間の間隔やクエリの意図を無視しながら、視覚的に冗長なトークンで二次的な自己認識機構を無差別に洪水させ、推論のスループットを著しくボトルネックにする。
そこで本稿では,Q-Zoomを提案する。Q-Zoomはクエリ対応の適応型高解像度認識フレームワークで,粗い粒度を効率よく処理する。
まず、軽量なDynamic Gating Networkは、粗いグローバル機能が十分である場合に、高解像度処理を安全にバイパスする。
第二に、細かな知覚を必要とするクエリに対して、自己拡張領域提案ネットワーク(SD-RPN)は、中間特徴空間から直接タスク関連領域(RoI)を正確にローカライズする。
これらのモジュールを効率的に最適化するために、Gatingネットワークは、整合性を考慮した生成戦略を用いて決定論的ルーティングラベルを導出し、SD-RPNは完全な自己監督型蒸留パラダイムを採用する。
連続的な時空間アライメントスキームと微調整を目標とし、密集した局所RoIを粗いグローバルレイアウトでシームレスに融合させる。
大規模な実験により、Q-Zoomが支配的なパレートフロンティアを確立することが示されている。
Qwen2.5-VL-7Bを一次テストベッドとし、Q-Zoomは文書とOCRのベンチマークで2.52倍、高分解能のシナリオで4.39倍の推論を加速する。
さらに、知覚の忠実度を最大に設定すると、Q-Zoomはそれぞれのベンチマークでベースラインのピーク性能を1.1%と8.1%で上回る。
これらの堅牢な改善は、Qwen3-VL、LLaVA、新しいRLベースの思考とイメージモデルにシームレスに移行する。
プロジェクトページはhttps://yuhengss.github.io/Q-Zoom/.comで公開されている。
関連論文リスト
- SMR-Net:Robot Snap Detection Based on Multi-Scale Features and Self-Attention Network [0.0]
従来のビジュアルメソッドは、複雑なシナリオを扱う際に、ロバスト性や大きなローカライゼーションエラーに悩まされる。
本稿では,自己注意型マルチスケールオブジェクト検出アルゴリズムであるSMR-Netを提案する。
A型スナップデータセットとB型スナップデータセットの実験結果は、SMR-Netが従来のFaster R-CNNを大きく上回っていることを示している。
論文 参考訳(メタデータ) (2026-03-01T10:28:01Z) - AdaSpot: Spend Resolution Where It Matters for Precise Event Spotting [59.31340724915079]
イベントスポッティングは、スポーツ分析、ロボティクス、自律システムにおけるアプリケーションにとって重要なタスクである。
bfAdaSpotは厳格な評価基準の下で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-25T16:24:48Z) - Real-Time LiDAR Super-Resolution via Frequency-Aware Multi-Scale Fusion [0.4078247440919472]
FLASH (Frequency-aware LiDAR Adaptive Super- resolution with Hierarchical fusion) は、二重ドメイン処理による制限を克服する新しいフレームワークである。
FLASHは、2つの重要なイノベーションを統合する: (i) 局所的な空間的注意とFFTによるグローバルな周波数領域分析を組み合わせ、細粒度の幾何と周期的な走査パターンの両方をログ線形複雑度で捉え、 (ii) 学習された位置特異的な特徴集約による従来のスキップ接続を置き換え、CBAMによる動的特徴選択のために強化する適応的マルチスケールフュージョン。
論文 参考訳(メタデータ) (2025-11-10T18:38:15Z) - Scale-DiT: Ultra-High-Resolution Image Generation with Hierarchical Local Attention [50.391914489898774]
Scale-DiTは、階層的な局所的注意を低解像度のグローバルガイダンスで導入する新しい拡散フレームワークである。
軽量なLoRA適応は、デノナイズ中のグローバルパスとローカルパスをブリッジし、構造と詳細の整合性を確保する。
実験によると、Scale-DiTは2ドル以上の高速な推論とメモリ使用量の削減を実現している。
論文 参考訳(メタデータ) (2025-10-18T03:15:26Z) - Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception [43.40677219802473]
MLLM(Multimodal Large Language Models)は、微細な知覚を行うために高解像度の視覚情報を必要とする。
近年の手法では、RoI(Rerea-of-Interest)メカニズムを活用して、健全な領域に焦点をあてている。
本稿では,このトレードオフを解決する効率的な自己拡張型地域提案ネットワーク(SD-RPN)を提案する。
論文 参考訳(メタデータ) (2025-09-21T06:54:04Z) - Inter2Former: Dynamic Hybrid Attention for Efficient High-Precision Interactive [58.0729162588429]
インタラクティブセグメンテーションは、ユーザプロンプトからターゲット領域をセグメンテーションすることで、アノテーション効率を向上させる。
現在のアプローチは重要なトレードオフに直面している。密度の高いメソッドは精度が向上するが、CPUデバイスでの処理が著しく遅くなる。
そこで我々は,高密度な処理における計算割り当てを最適化することで,この問題に対処するInter2Formerを提案する。
論文 参考訳(メタデータ) (2025-07-13T12:33:37Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Higher Performance Visual Tracking with Dual-Modal Localization [106.91097443275035]
Visual Object Tracking (VOT)は、堅牢性と正確性の両方に同期性を必要とする。
ONRによるロバストなローカリゼーション抑制器とOFCによるターゲットセンターへの正確なローカリゼーションにより、ターゲットローカリゼーションのためのデュアルモーダルフレームワークを提案します。
論文 参考訳(メタデータ) (2021-03-18T08:47:56Z) - Spatial-Scale Aligned Network for Fine-Grained Recognition [42.71878867504503]
精密な視覚認識のための既存のアプローチは、境界領域に基づく表現の学習に重点を置いている。
本稿では,空間スケールアライメントネットワーク(SSANET)を提案する。
論文 参考訳(メタデータ) (2020-01-05T11:12:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。