論文の概要: Mechanistically Interpreting Compression in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.25035v1
- Date: Thu, 26 Mar 2026 05:10:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.110721
- Title: Mechanistically Interpreting Compression in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける圧縮の機械的解釈
- Authors: Veeraraju Elluru, Arth Singh, Roberto Aguero, Ajay Agarwal, Debojyoti Das, Hreetam Paul,
- Abstract要約: 代表的な視覚言語モデルにおいて,プルーニングと量子化が内部をどのように根本的に変えるかを検討する。
以上の結果から,プルーニングは真の拒絶行動の急激な低下を招き,圧縮の選択が安全性に影響を及ぼすことが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compressed vision-language models (VLMs) are widely used to reduce memory and compute costs, making them a suitable choice for real-world deployment. However, compressing these models raises concerns about whether internal computations and safety behaviors are preserved. In this work, we use causal circuit analysis and crosscoder-based feature comparisons to examine how pruning and quantization fundamentally change the internals across representative VLMs. We observe that pruning generally keeps circuit structure intact but rotates and attenuates internal features, while quantization modifies the circuits at a higher level yet leaves the surviving features better aligned. Leveraging this insight, we also introduce VLMSafe-420, a novel benchmark that pairs harmful inputs with matched benign counterfactuals across various safety categories. Our findings show that pruning causes a sharp drop in genuine refusal behavior, suggesting that the choice of compression has safety implications.
- Abstract(参考訳): 圧縮視覚言語モデル(VLM)は、メモリと計算コストを減らすために広く使われており、現実のデプロイメントに適した選択肢である。
しかし、これらのモデルを圧縮すると、内部計算と安全性の挙動が保存されているかどうかが懸念される。
本研究では、因果回路解析とクロスコーダに基づく特徴比較を用いて、プルーニングと量子化が代表VLM間の内部を根本的に変化させる方法について検討する。
プルーニングは一般に回路構造を保ちながら内部特性を減衰させるのに対し、量子化は回路を高いレベルに調整するが、残った特徴はより整列する。
VLMSafe-420は、有害な入力とマッチした良性カウンターファクトを、さまざまな安全カテゴリでペアリングする新しいベンチマークである。
以上の結果から,プルーニングは真の拒絶行動の急激な低下を招き,圧縮の選択が安全性に影響を及ぼすことが示唆された。
関連論文リスト
- Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - Can Transformer Memory Be Corrupted? Investigating Cache-Side Vulnerabilities in Large Language Models [0.0]
本稿では,制御された大きさと周波数で鍵ベクトルをキャッシュするモジュラーフレームワークであるMalicious Token Injection(MTI)を紹介する。
実験の結果,MTI は GPT-2 および LLaMA-2/7B の次トーケン分布と下流タスク性能を著しく変化させ,検索強化およびエージェント推論パイプラインの安定化を図った。
論文 参考訳(メタデータ) (2025-10-20T02:04:18Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。
デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。
キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文 参考訳(メタデータ) (2025-07-15T12:52:12Z) - Robustifying Vision-Language Models via Dynamic Token Reweighting [28.675118345987887]
大きな視覚言語モデル(VLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。
マルチモーダル・ジェイルブレイク攻撃を緩和する新しい推論時防御法を提案する。
視覚的モダリティによって誘導される安全関連分布シフトの新しい定式化を導入する。
論文 参考訳(メタデータ) (2025-05-22T03:00:39Z) - SafeSwitch: Steering Unsafe LLM Behavior via Internal Activation Signals [51.49737867797442]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的な能力を示すが、有害なコンテンツを生成することでリスクを引き起こす。
LLMは、内部状態の安全性に関する内部評価を同様に行うことができることを示す。
本稿では,プロバーをベースとした内部状態モニタを用いて,安全でない出力を規制するSafeSwitchを提案する。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - UNComp: Can Matrix Entropy Uncover Sparsity? -- A Compressor Design from an Uncertainty-Aware Perspective [85.08718140718707]
UNCompは不確実性を認識したフレームワークで、適応圧縮に使用できる空間パターンを明らかにする。
スパーシティパターンを詳細に分析する不確実性に注目して、UNCompはKVキャッシュサイズを4.74%に削減し、6%のプリフィルスピードアップを実現し、スループットを6.4倍改善した。
論文 参考訳(メタデータ) (2024-10-04T02:32:36Z) - Safety Layers in Aligned Large Language Models: The Key to LLM Security [43.805905164456846]
整列 LLM の内部パラメータは、微調整攻撃を受けた場合のセキュリティ劣化に対して脆弱である。
我々の研究は、パラメータレベルでのLLMの整列化におけるセキュリティのメカニズムを明らかにし、モデルの中央に小さな連続した層を識別する。
そこで本稿では, 安全部分調整(SPPFT)方式を提案する。
論文 参考訳(メタデータ) (2024-08-30T04:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。