論文の概要: Topology-Aware Layer Pruning for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.16502v1
- Date: Tue, 14 Apr 2026 14:36:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.032827
- Title: Topology-Aware Layer Pruning for Large Vision-Language Models
- Title(参考訳): 大規模視覚言語モデルのためのトポロジ対応層プルーニング
- Authors: Pengcheng Zheng, Chaoning Zhang, Ya Wen, Wang Liu, Qigan Sun, Jiarong Mo, Jiaquan Zhang, Jewon Lee, Tae-Ho Kim, Kuien Liu, Tianyu Li, Caiyan Qin, Yang Yang,
- Abstract要約: LVLM(Large Vision-Language Models)は、計算とメモリのコストを大幅に削減する。
既存のレイヤプルーニングメソッドは、通常、ローカルな類似度メトリクスや静的プロキシ信号に依存する。
LVLMのためのトポロジ対応層プルーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 21.06771347736129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated strong capabilities in natural language understanding and reasoning, while recent extensions that incorporate visual inputs enable them to process multimodal information. Despite these advances, Large Vision-Language Models (LVLMs) incur substantial computational and memory costs, hindering deployment in resource-constrained scenarios. Existing layer pruning methods typically rely on local similarity metrics or static proxy signals, failing to capture the global and dynamic evolution of representations across model depth, which often leads to the removal of transition-critical layers. To address this limitation, we propose a topology-aware layer pruning framework for LVLMs. Specifically, we represent layer wise hidden states as point clouds and models their evolution using \textit{simplicial complexes}. By leveraging \textit{zigzag persistent homology}, we quantify inter-layer topological consistency and enable adaptive pruning that preserves critical representational transitions. Extensive experiments on diverse multimodal benchmarks demonstrate that the proposed framework consistently outperforms existing pruning methods across a wide range of sparsity ratios. Our code is available at https://github.com/zpc456/TopoVLM.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語の理解と推論において強力な能力を示し、視覚入力を組み込んだ最近の拡張により、マルチモーダル情報を処理することができる。
これらの進歩にもかかわらず、LVLM(Large Vision-Language Models)は相当な計算コストとメモリコストを発生させ、リソース制約のあるシナリオへの展開を妨げる。
既存のレイヤプルーニング手法は、通常、局所的な類似度メトリクスや静的プロキシ信号に依存し、モデル深度をまたいだ表現のグローバルかつ動的な進化を捉えることができず、しばしば遷移クリティカルなレイヤの除去につながる。
この制限に対処するため,LVLMのためのトポロジ対応層プルーニングフレームワークを提案する。
具体的には、レイヤワイドな隠蔽状態を点雲として表現し、その進化を \textit{simplicial Complex} を用いてモデル化する。
textit{zigzag persistent homology} を利用することで、層間トポロジ的整合性を定量化し、重要な表現遷移を保存する適応的プルーニングを可能にする。
多様なマルチモーダルベンチマークに関する大規模な実験により、提案フレームワークは、広範囲にわたるポーラスティ比で既存のプルーニング手法を一貫して上回っていることが示された。
私たちのコードはhttps://github.com/zpc456/TopoVLM.comから入手可能です。
関連論文リスト
- Beyond Text-Dominance: Understanding Modality Preference of Omni-modal Large Language Models [73.89069781682032]
我々は、Omni-Modal Large Language Models (OLLM) のモダリティ嗜好を定量化する。
従来のVLMの「テキスト・マディナンス」とは異なり、ほとんどのOLLMは視覚的嗜好が顕著である。
私たちの仕事は、機械的な理解と、より信頼できるOLLMを構築するための実践的なツールの両方を提供します。
論文 参考訳(メタデータ) (2026-04-18T08:25:52Z) - ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model [53.15040805435013]
視覚言語モデル(VLM)は、一様にサンプリングされたフレームを解析することで、強力なセマンティックグラウンドと一般的な知識を提供する。
本稿では,高密度フレーム・ダイナミックス・モデリングと長軸意味指導を組み合わせたVLM誘導型JEPA型潜在世界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-23T17:59:42Z) - TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - Stateful Cross-layer Vision Modulation [19.730096071316876]
マルチモーダル大言語モデル(MLLM)は、視覚表現を強化するために多層視覚特徴融合を広く採用している。
既存のアプローチは通常、表現形成プロセス自体に介入することなく、視覚符号化後の静的連結や重み付けアグリゲーションを実行する。
本稿では,これらの制約に対処する多層メモリ変調ビジョンフレームワーク(SCVM)を提案する。
論文 参考訳(メタデータ) (2026-02-28T13:57:19Z) - Multimodal Latent Reasoning via Hierarchical Visual Cues Injection [16.779425236020433]
この研究は、頑健な推論は潜在空間内で進化し、シームレスにマルチモーダル信号を統合することを示唆している。
表面的な文章の合理性に依存することなく、意図的な「スロー思考」を具現化する新しい枠組みを提案する。
視覚知識を取り入れたテストタイムスケーリングは有効であり,階層的な情報の統合は複雑な場面に対するモデルの理解を著しく向上させることを示す。
論文 参考訳(メタデータ) (2026-02-05T06:31:12Z) - ParaUni: Enhance Generation in Unified Multimodal Model with Reinforcement-driven Hierarchical Parallel Information Interaction [55.21514454560188]
統一マルチモーダルモデルでは、視覚の粒度モデル(VLM)と拡散モデルを組み合わせることで、視覚生成を著しく改善する。
既存の手法は、表現の差が大きいため、十分な相互作用と柔軟な実装のバランスをとるのに苦労する。
我々は,textbfParallel方式でVLMの変形層から特徴を抽出し,包括的情報インタラクションを実現するtextbfParaUniを提案する。
論文 参考訳(メタデータ) (2025-12-05T04:41:57Z) - Layer by Layer: Uncovering Hidden Representations in Language Models [28.304269706993942]
中間層がよりリッチな表現をエンコードできることを示し、ダウンストリームタスクの幅広いパフォーマンスを改善することがよくある。
我々のフレームワークは、各層が情報圧縮と信号保存のバランスをとる方法を強調し、なぜ中層埋め込みが最終層の性能を上回るのかを明らかにする。
論文 参考訳(メタデータ) (2025-02-04T05:03:42Z) - GrootVL: Tree Topology is All You Need in State Space Model [66.36757400689281]
GrootVLは、視覚的タスクとテキストタスクの両方に適用できる多目的マルチモーダルフレームワークである。
本手法は, 画像分類, オブジェクト検出, セグメンテーションにおいて, 既存の構造化状態空間モデルよりも大幅に優れる。
大規模言語モデルの微調整により,本手法は訓練コストの少ない複数のテキストタスクにおいて一貫した改善を実現する。
論文 参考訳(メタデータ) (2024-06-04T15:09:29Z) - Probing Multimodal Large Language Models for Global and Local Semantic Representations [57.25949445963422]
マルチモーダル大言語モデルのどの層がグローバルな画像情報に最も力を注いでいるかを検討する。
本研究では,モデルの中間層が,よりグローバルな意味情報を符号化できることを見出した。
最上位のレイヤが過度にローカル情報に集中していることが分かり、グローバル情報をエンコードする能力の低下につながります。
論文 参考訳(メタデータ) (2024-02-27T08:27:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。