論文の概要: HiDe: Rethinking The Zoom-IN method in High Resolution MLLMs via Hierarchical Decoupling
- arxiv url: http://arxiv.org/abs/2510.00054v1
- Date: Sun, 28 Sep 2025 08:31:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.144471
- Title: HiDe: Rethinking The Zoom-IN method in High Resolution MLLMs via Hierarchical Decoupling
- Title(参考訳): HiDe:階層デカップリングによる高分解能MLLMにおけるZoom-IN法の再検討
- Authors: Xianjie Liu, Yiman Hu, Yixiong Zou, Liang Wu, Jian Xu, Bo Zheng,
- Abstract要約: HiDeは、Token-wise Attention Decoupling(TAD)を使用して、質問トークンを分離し、キー情報トークンを識別する、トレーニング不要のフレームワークである。
背景干渉を排除しつつ、重要な空間配置を保存するコンパクトな表現を再構築する。
最適化後、HiDeは以前のトレーニング不要のアプローチよりも75%少ないメモリを使用する。
- 参考スコア(独自算出の注目度): 22.105148012267005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have made significant strides in visual understanding tasks. However, their performance on high-resolution images remains suboptimal. While existing approaches often attribute this limitation to perceptual constraints and argue that MLLMs struggle to recognize small objects, leading them to use "zoom in" strategies for better detail, our analysis reveals a different cause: the main issue is not object size, but rather caused by complex background interference. We systematically analyze this "zoom in" operation through a series of decoupling experiments and propose the Hierarchical Decoupling Framework (HiDe), a training-free framework that uses Token-wise Attention Decoupling (TAD) to decouple the question tokens and identify the key information tokens, then leverages their attention weights to achieve precise alignment with the target visual regions. Subsequently, it employs Layout-Preserving Decoupling (LPD) to decouple these regions from the background and reconstructs a compact representation that preserves essential spatial layouts while eliminating background interference. HiDe sets a new SOTA on V*Bench, HRBench4K, and HRBench8K, boosting Qwen2.5-VL 7B and InternVL3 8B to SOTA (92.1% and 91.6% on V*Bench), even surpassing RL methods. After optimization, HiDe uses 75% less memory than the previous training-free approach. Code is provided in https://github.com/Tennine2077/HiDe.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚的理解タスクにおいて大きな進歩を遂げている。
しかし、高解像度画像におけるそれらの性能は依然として準最適である。
既存のアプローチでは、この制限は知覚的制約によるもので、MLLMは小さなオブジェクトを認識するのに苦労している、と論じることが多い。
我々は,この「ズームイン」操作を一連のデカップリング実験を通じて体系的に分析し,Token-wise Attention Decoupling(TAD)を用いて質問トークンを分離し,キー情報トークンを識別する学習自由フレームワークHiDeを提案する。
その後、Layout-Preserving Decoupling (LPD)を使用して、これらの領域を背景から切り離し、背景干渉を排除しつつ、重要な空間配置を保存するコンパクトな表現を再構築する。
HiDeは新しいSOTAをV*Bench、HRBench4K、HRBench8Kに設定し、Qwen2.5-VL 7B、InternVL3 8BをSOTA(V*Benchでは92.1%、91.6%)に引き上げ、RL法を超過した。
最適化後、HiDeは以前のトレーニング不要のアプローチよりも75%少ないメモリを使用する。
コードはhttps://github.com/Tennine2077/HiDeで提供されている。
関連論文リスト
- Zoom-Refine: Boosting High-Resolution Multimodal Understanding via Localized Zoom and Self-Refinement [17.824841346088903]
MLLM(Multimodal Large Language Models)は高解像度画像の正確な解釈に苦慮することが多い。
この問題に対処するためのMLLM機能を強化した新しいトレーニングフリーのZoom-Refineを導入する。
本手法は, 空間的局所化, 文脈的推論, 比較分析にMLLM固有の能力を活用し, 追加の訓練や外部の専門家を必要とせずに活用する。
論文 参考訳(メタデータ) (2025-06-02T13:32:35Z) - Efficiently Disentangling CLIP for Multi-Object Perception [62.523137132812764]
CLIPのような視覚言語モデルは、シーン内の1つの顕著なオブジェクトを認識するのに優れていますが、複数のオブジェクトを含む複雑なシーンで苦労しています。
凍結したVLMに最小限の学習可能なパラメータのみを追加しながら、最適な相互情報のレベルを学習する効率的なフレームワークであるDCLIPを提案する。
論文 参考訳(メタデータ) (2025-02-05T08:20:31Z) - RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs [38.34856927170692]
MLLM(Multimodal Large Language Model)の学習用フレームワークを提案する。
Probe-Activated Dynamic FFNとHollow Attentionで構成されており、ビジュアルトークンの計算の調整可能な削減を可能にする。
実験では、デコーダのみのMLLMに特有の、実質的で、構造化され、クラスタ化された冗長性を示す。
論文 参考訳(メタデータ) (2025-01-31T11:09:16Z) - Mini-Monkey: Alleviating the Semantic Sawtooth Effect for Lightweight MLLMs via Complementary Image Pyramid [87.09900996643516]
本稿では,高分解能画像処理における意味的不連続性を軽減するための補完画像ピラミッド(CIP)を提案する。
また、冗長な視覚トークンを圧縮することにより、計算オーバーヘッドを増大させるスケール圧縮機構(SCM)を導入する。
我々の実験は、CIPが様々なアーキテクチャで継続的に性能を向上できることを示した。
論文 参考訳(メタデータ) (2024-08-04T13:55:58Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - SufrinNet: Toward Sufficient Cross-View Interaction for Stereo Image
Enhancement in The Dark [119.01585302856103]
低照度ステレオ画像強調(LLSIE)は、暗黒環境で撮影された視覚的に不快なステレオ画像の品質を高めるための比較的新しいタスクである。
1)クロスビューの相互作用が不十分なこと,2)ビュー内学習に長距離依存が欠如していること,である。
SufrinNet(SufrinNet)を用いた新しいLLSIEモデルを提案する。
論文 参考訳(メタデータ) (2022-11-02T04:01:30Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z) - Multi-View Stereo Network with attention thin volume [0.0]
複数のRGB画像から深度値を推定するための効率的なマルチビューステレオ(MVS)ネットワークを提案する。
入力画像から支配的な情報を完全に集約する自己認識機構を導入する。
また,特徴集約に対するグループワイド相関を導入し,メモリと計算負荷を大幅に削減する。
論文 参考訳(メタデータ) (2021-10-16T11:51:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。