論文の概要: From Inheritance to Saturation: Disentangling the Evolution of Visual Redundancy for Architecture-Aware MLLM Inference Acceleration
- arxiv url: http://arxiv.org/abs/2604.16462v1
- Date: Wed, 08 Apr 2026 07:42:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.018411
- Title: From Inheritance to Saturation: Disentangling the Evolution of Visual Redundancy for Architecture-Aware MLLM Inference Acceleration
- Title(参考訳): 継承から飽和へ:アーキテクチャを考慮したMLLM推論高速化のための視覚冗長性の進化を遠ざける
- Authors: Jiaqi Shi, Yuechan Li, Xulong Zhang, Xiaoyang Qu, Jianzong Wang,
- Abstract要約: 高解像度マルチモーダル大言語モデル(MLLM)は、視覚トークンの爆発による計算コストの禁止に直面している。
トークンプルーニングやレイヤスポーシティといった既存のアクセラレーション戦略は、深刻な"バックボーン依存性"に悩まされている。
我々は,3段階の普遍的推論のライフサイクルを明らかにするために,切り離された行列エントロピーを利用する。
- 参考スコア(独自算出の注目度): 36.510721886563225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-resolution Multimodal Large Language Models (MLLMs) face prohibitive computational costs during inference due to the explosion of visual tokens. Existing acceleration strategies, such as token pruning or layer sparsity, suffer from severe "backbone dependency", performing well on Vicuna or Mistral architectures (e.g., LLaVA) but causing significant performance degradation when transferred to architectures like Qwen. To address this, we leverage truncated matrix entropy to uncover a universal three-stage inference lifecycle, decoupling visual redundancy into universal Intrinsic Visual Redundancy (IVR) and architecture-dependent Secondary Saturation Redundancy (SSR). Guided by this insight, we propose HalfV, a framework that first mitigates IVR via a unified pruning strategy and then adaptively handles SSR based on its specific manifestation. Experiments demonstrate that HalfV achieves superior efficiency-performance trade-offs across diverse backbones. Notably, on Qwen25-VL, it retains 96.8\% performance at a 4.1$\times$ FLOPs speedup, significantly outperforming state-of-the-art baselines. Our code is available at https://github.com/civilizwa/HalfV.
- Abstract(参考訳): 高解像度マルチモーダル大言語モデル (MLLM) は、視覚トークンの爆発による推論において、計算コストの禁止に直面している。
既存のアクセラレーション戦略であるトークンプルーニングやレイヤスペーサリティは、VicunaやMistralアーキテクチャ(例:LLaVA)でうまく機能するが、Qwenのようなアーキテクチャに移行するとパフォーマンスが大幅に低下する。
そこで我々は,3段階の普遍的推論ライフサイクルを明らかにするために,トランカット行列のエントロピーを活用し,視覚的冗長性を普遍的内在的視覚冗長性(IVR)とアーキテクチャに依存した二次的飽和冗長性(SSR)に分解する。
この知見に導かれたHalfVは、最初に統合されたプルーニング戦略を通じてIVRを緩和し、その具体的なマニフェストに基づいてSSRを適応的に処理するフレームワークである。
実験により、HalfVは様々なバックボーン間で優れた効率と性能のトレードオフを実現することが示された。
特にQwen25-VLでは、96.8\%の性能を4.1$\times$ FLOPsで維持し、最先端のベースラインよりも大幅に向上した。
私たちのコードはhttps://github.com/civilizwa/HalfV.comで公開されています。
関連論文リスト
- DexWorldModel: Causal Latent World Modeling towards Automated Learning of Embodied Tasks [54.32016216994156]
本稿では,DINOv3特徴を生成対象として用い,視覚ノイズから相互作用意味を乱す因果潜在世界モデル(CLWM)を提案する。
メモリスケーリングを克服するため、CLWMはDual-State Test-Time Training (TTT)メモリを備えている。
EmbodiChainは、トレーニング中に物理基底軌道の無限の流れを注入することによって効率法を確立するオンラインフレームワークである。
論文 参考訳(メタデータ) (2026-04-13T03:19:36Z) - Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning [82.39668822222386]
ビジョントークンプルーニングは、効率的なビジョン言語モデル(VLM)のための効果的なアクセラレーション手法であることが証明された。
空間的整合性を維持しつつ,効率的な特徴集約を実現するための2段階のトークンプルーニングフレームワークである$textNwa$を提案する。
実験によると、textNwa$は複数のVQAベンチマーク(94%から95%)でSOTAのパフォーマンスを達成し、視覚的グラウンドタスク(7%から47%)を大幅に改善している。
論文 参考訳(メタデータ) (2026-02-03T00:51:03Z) - Unleashing Degradation-Carrying Features in Symmetric U-Net: Simpler and Stronger Baselines for All-in-One Image Restoration [52.82397287366076]
オールインワン画像復元は、統合された枠組み内で様々な劣化(ノイズ、ぼかし、悪天候など)を扱うことを目的としている。
本研究では, 優れた特徴抽出法により, 劣化伝達情報を本質的にエンコードする, 重要な知見を明らかにする。
我々の対称設計は固有の劣化信号を頑健に保存し、スキップ接続に単純な加法融合を施す。
論文 参考訳(メタデータ) (2025-12-11T12:20:31Z) - FastMMoE: Accelerating Multimodal Large Language Models through Dynamic Expert Activation and Routing-Aware Token Pruning [16.753299634529736]
マルチモーダル・大規模言語モデル (MLLM) は優れた性能を達成しているが、高解像度の視覚入力は視覚トークンの長いシーケンスと相当な推論遅延をもたらす。
冗長なビジュアルトークンの削減は、パフォーマンスを維持しながら計算/メモリの負担を軽減するために重要であり、リソース制約やレイテンシに敏感なシナリオでのMLLMデプロイメントを可能にする。
本稿では,Fast Multimodal Mixture-of-Experts (FastMMoE)を提案する。
論文 参考訳(メタデータ) (2025-11-22T02:25:00Z) - EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models [21.42353501209045]
VLA(Vision-Language-Action)モデルは、エンボディインテリジェンスに対する変換ポテンシャルを示すが、高い計算とメモリ要求によって著しく妨げられる。
本稿では,構造化およびトレーニング不要な推論促進フレームワークであるEfficientVLAを紹介する。
提案手法を標準VLAモデルであるCogACTに適用し,予測速度を1.93倍に向上し,FLOPを28.9%に削減し,SIMPLERベンチマークでは0.6%の成功率の低下に留まった。
論文 参考訳(メタデータ) (2025-06-11T18:34:57Z) - Manifold-aware Representation Learning for Degradation-agnostic Image Restoration [135.90908995927194]
画像復元(IR)は、ノイズ、ぼかし、迷路、雨、低照度といった様々な汚職に影響を受ける劣化した入力から高品質な画像を復元することを目的としている。
我々は、入力特徴空間を3つのセマンティックに整列した並列分岐に明示的に分解する1つのIRにおいて、すべてに統一されたフレームワークであるMIRAGEを提案する。
このモジュラ分解は、多種多様な分解の一般化と効率を大幅に改善する。
論文 参考訳(メタデータ) (2025-05-24T12:52:10Z) - Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping [13.846838416902575]
重要なボトルネックは、きめ細かい画像理解に必要な視覚トークンの拡散に起因する。
視覚言語モデルにおけるトレーニングと推論の非効率性に対処する統合フレームワークであるSkip-Visionを提案する。
実験の結果,Skip-Visionはトレーニング時間を最大35%短縮し,FLOPを75%,レイテンシを45%短縮した。
論文 参考訳(メタデータ) (2025-03-26T04:16:48Z) - RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs [38.34856927170692]
MLLM(Multimodal Large Language Model)の学習用フレームワークを提案する。
Probe-Activated Dynamic FFNとHollow Attentionで構成されており、ビジュアルトークンの計算の調整可能な削減を可能にする。
実験では、デコーダのみのMLLMに特有の、実質的で、構造化され、クラスタ化された冗長性を示す。
論文 参考訳(メタデータ) (2025-01-31T11:09:16Z) - EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality [16.576495786546612]
隠れ状態ミキサーに基づく状態空間双対性(HSM-SSD)に基づく新しいアーキテクチャであるEfficient Vision Mambaを紹介する。
隠れ状態の表現力を強化するために,多段隠れ状態融合を提案し,メモリバウンド操作によるボトルネックを軽減する設計を提案する。
その結果、EfficientViMファミリはImageNet-1k上で新しい最先端のスピード精度トレードオフを実現し、より高速な第2世代モデルSHViTよりも最大で0.7%の性能向上を実現した。
論文 参考訳(メタデータ) (2024-11-22T02:02:06Z) - RMT: Retentive Networks Meet Vision Transformers [55.76528783956601]
近年,ビジョントランスフォーマー (ViT) がコンピュータビジョンコミュニティで注目を集めている。
自己注意は空間的先行性に欠け、二次的な計算複雑性を持つ。
一般的な目的のために,空間的に明瞭なバックボーンを持つ強力な視覚バックボーンであるRTTを提案する。
論文 参考訳(メタデータ) (2023-09-20T00:57:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。