論文の概要: Understanding Pruning Regimes in Vision-Language Models Through Domain-Aware Layer Selection
- arxiv url: http://arxiv.org/abs/2603.20275v1
- Date: Tue, 17 Mar 2026 15:07:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:38.791369
- Title: Understanding Pruning Regimes in Vision-Language Models Through Domain-Aware Layer Selection
- Title(参考訳): ドメイン・アウェア・レイヤの選択による視覚言語モデルにおけるプルーニングレジームの理解
- Authors: Saeed Khaki, Nima Safaei, Kamal Ginotra,
- Abstract要約: トランスフォーマーベースの視覚言語モデル(VLM)は、かなりの深度冗長性を含んでいる。
ドメイン認識のアクティベーション類似性のレンズを貫通する構造デコーダ層について検討した。
- 参考スコア(独自算出の注目度): 0.5862480696321741
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based vision-language models (VLMs) contain substantial depth redundancy, yet the effect of removing specific decoder layers remains poorly understood, especially for domains that require tight coupling between perception and multi-step reasoning. We study structured decoder layer pruning through the lens of domain-aware activation similarity, measuring how strongly each layer transforms representations for math versus non-math inputs. This yields simple math-aware, non-math-aware, and mixed ranking criteria that identify layers whose input-output activations change least within a target domain. Across two state-of-the-art VLMs and a broad suite of math and general multimodal benchmarks, we uncover a consistent three-regime structure: at low pruning budgets, performance is highly sensitive to which layers are removed; at moderate budgets, methods converge as structural damage accumulates; and at high budgets, structural continuity dominates, favoring spacing-aware strategies. Our domain-aware rankings achieve the strongest stability in the ranking-sensitive regime, while matching or exceeding structure-aware baselines at larger budgets. These results provide a clearer picture of how depth contributes to domain-specific behavior in VLMs and offer a practical, interpretable approach to reducing model depth without sacrificing essential mathematical or general vision-language capabilities.
- Abstract(参考訳): トランスフォーマーベースの視覚言語モデル(VLM)は、かなりの深度冗長性を含んでいるが、特に知覚と多段階推論の密結合を必要とする領域において、特定のデコーダ層を除去する効果はよく分かっていない。
本研究では、ドメイン認識のアクティベーション類似性のレンズを貫通する構造デコーダ層について検討し、各層が数学と非数学の入力の表現をいかに強く変換するかを測定した。
これにより、単純な数学認識、非数学認識、混合ランキング基準が得られ、入力出力の活性化がターゲット領域内で最小限に変化する層を特定する。
2つの最先端のVLMと、幅広い数学と一般的なマルチモーダルのベンチマークによって、一貫した3つのレジデント構造が明らかになった。低プルーニングの予算では、どの層が取り除かれたかがパフォーマンスに非常に敏感であり、中程度の予算では、構造的損傷が蓄積するにつれてメソッドが収束し、高予算では構造的連続性が支配され、スペーシング・アウェア戦略が好まれる。
我々のドメイン対応ランキングは、より大きな予算で構造対応基準を適合または超過しながら、ランキング対応体制において最強の安定性を達成する。
これらの結果は、深度がVLMのドメイン固有の振る舞いにどのように寄与するかをより明確にし、本質的な数学的あるいは一般的な視覚言語能力を犠牲にすることなく、モデル深度を減らすための実践的で解釈可能なアプローチを提供する。
関連論文リスト
- Explainable AI: Context-Aware Layer-Wise Integrated Gradients for Explaining Transformer Models [13.707653566827704]
トランスフォーマーモデルは、ドメインやタスク間で最先端のパフォーマンスを達成するが、その深い階層化表現により、予測の解釈が困難になる。
既存の説明可能性法は最終層属性に依存し、局所的なトークンレベルの属性か、統一せずにグローバルな注意パターンをキャプチャする。
本稿では,各トランスフォーマーブロック内の階層的に統合されたグラディエントを計算し,これらのトークンレベルの属性をクラス固有の注意勾配と融合する階層型属性フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-18T17:03:10Z) - Feature-Space Planes Searcher: A Universal Domain Adaptation Framework for Interpretability and Computational Efficiency [7.889121135601528]
現在の教師なし領域適応法は微調整特徴抽出器に依存している。
領域適応フレームワークとしてFPS(Feature-space Planes Searcher)を提案する。
FPSは最先端の手法と比較して,競争力や性能に優れることを示す。
論文 参考訳(メタデータ) (2025-08-26T05:39:21Z) - GCRPNet: Graph-Enhanced Contextual and Regional Perception Network for Salient Object Detection in Optical Remote Sensing Images [68.33481681452675]
本稿では,GCRPNet(Graph-enhanced contextual and Regional Recognition Network)を提案する。
これはMambaアーキテクチャの上に構築され、長距離依存関係を同時にキャプチャし、地域的特徴表現を強化する。
マルチスケールの畳み込みによって処理される特徴マップに対して適応的なパッチスキャンを行い、リッチなローカル領域情報をキャプチャする。
論文 参考訳(メタデータ) (2025-08-14T11:31:43Z) - Manifold-aware Representation Learning for Degradation-agnostic Image Restoration [135.90908995927194]
画像復元(IR)は、ノイズ、ぼかし、迷路、雨、低照度といった様々な汚職に影響を受ける劣化した入力から高品質な画像を復元することを目的としている。
我々は、入力特徴空間を3つのセマンティックに整列した並列分岐に明示的に分解する1つのIRにおいて、すべてに統一されたフレームワークであるMIRAGEを提案する。
このモジュラ分解は、多種多様な分解の一般化と効率を大幅に改善する。
論文 参考訳(メタデータ) (2025-05-24T12:52:10Z) - Layer by Layer: Uncovering Hidden Representations in Language Models [28.304269706993942]
中間層がよりリッチな表現をエンコードできることを示し、ダウンストリームタスクの幅広いパフォーマンスを改善することがよくある。
我々のフレームワークは、各層が情報圧縮と信号保存のバランスをとる方法を強調し、なぜ中層埋め込みが最終層の性能を上回るのかを明らかにする。
論文 参考訳(メタデータ) (2025-02-04T05:03:42Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - Disentangling Masked Autoencoders for Unsupervised Domain Generalization [57.56744870106124]
教師なしの領域一般化は急速に注目されているが、まだ十分に研究されていない。
Disentangled Masked Auto (DisMAE) は、本質的な特徴を忠実に示す不整合表現を発見することを目的としている。
DisMAEは、セマンティックで軽量な変分エンコーダを備えた非対称なデュアルブランチアーキテクチャを共同で訓練する。
論文 参考訳(メタデータ) (2024-07-10T11:11:36Z) - Multi-Agent Reinforcement Learning for Adaptive Mesh Refinement [17.72127385405445]
完全協調型マルコフゲームとしてアダプティブメッシュリファインメント(AMR)の新たな定式化を提案する。
VDGN(Value Decomposition Graph Network)と呼ばれる新しい深層マルチエージェント強化学習アルゴリズムを設計する。
VDGNポリシは,グローバルエラーおよびコスト指標において,エラーしきい値に基づくポリシよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-11-02T00:41:32Z) - Improving Transferability of Domain Adaptation Networks Through Domain
Alignment Layers [1.3766148734487902]
マルチソースアン教師付きドメイン適応(MSDA)は、ソースモデルの袋から弱い知識を割り当てることで、ラベルのないドメインの予測子を学習することを目的としている。
我々は,DomaIn Alignment Layers (MS-DIAL) のマルチソースバージョンを予測器の異なるレベルに埋め込むことを提案する。
我々の手法は最先端のMSDA法を改善することができ、分類精度の相対利得は+30.64%に達する。
論文 参考訳(メタデータ) (2021-09-06T18:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。