論文の概要: Do All Individual Layers Help? An Empirical Study of Task-Interfering Layers in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2602.01167v1
- Date: Sun, 01 Feb 2026 11:37:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.639669
- Title: Do All Individual Layers Help? An Empirical Study of Task-Interfering Layers in Vision-Language Models
- Title(参考訳): すべての個別層は役に立つか?視覚言語モデルにおけるタスク干渉層の実証的研究
- Authors: Zhiming Liu, Yujie Wei, Lei Feng, Xiu Su, Xiaobo Xia, Weili Guan, Zeke Xie, Shuo Yang,
- Abstract要約: 事前トレーニングされたVLMでは、すべてのレイヤがデフォルトで実行され、下流タスクで予測される。
パラメータをゼロにすることで、ひとつの層にインターベンションすることで、特定のタスクのパフォーマンスを向上させることができる。
与えられたタスクに対して最も干渉するレイヤを動的に識別し、バイパスする、トレーニング不要なテスト時間適応手法であるTaLoを提案する。
- 参考スコア(独自算出の注目度): 51.754991950934375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current VLMs have demonstrated capabilities across a wide range of multimodal tasks. Typically, in a pretrained VLM, all layers are engaged by default to make predictions on downstream tasks. We find that intervening on a single layer, such as by zeroing its parameters, can improve the performance on certain tasks, indicating that some layers hinder rather than help downstream tasks. We systematically investigate how individual layers influence different tasks via layer intervention. Specifically, we measure the change in performance relative to the base model after intervening on each layer and observe improvements when bypassing specific layers. This improvement can be generalizable across models and datasets, indicating the presence of Task-Interfering Layers that harm downstream tasks' performance. We introduce Task-Layer Interaction Vector, which quantifies the effect of intervening on each layer of a VLM given a task. These task-interfering layers exhibit task-specific sensitivity patterns: tasks requiring similar capabilities show consistent response trends under layer interventions, as evidenced by the high similarity in their task-layer interaction vectors. Inspired by these findings, we propose TaLo (Task-Adaptive Layer Knockout), a training-free, test-time adaptation method that dynamically identifies and bypasses the most interfering layer for a given task. Without parameter updates, TaLo improves performance across various models and datasets, including boosting Qwen-VL's accuracy on the Maps task in ScienceQA by up to 16.6%. Our work reveals an unexpected form of modularity in pretrained VLMs and provides a plug-and-play, training-free mechanism to unlock hidden capabilities at inference time. The source code will be publicly available.
- Abstract(参考訳): 現在のVLMは、幅広いマルチモーダルタスクにまたがる機能を示している。
通常、事前訓練されたVLMでは、すべてのレイヤがデフォルトで実行され、下流のタスクで予測される。
パラメータをゼロにすることで、ひとつの層にインターベンションすることで、特定のタスクのパフォーマンスが向上し、一部のレイヤが下流タスクに役立ちません。
個別の層が層介入によって異なるタスクにどのように影響するかを系統的に検討する。
具体的には、各層にインターベンションした後のベースモデルに対する性能変化を測定し、特定の層をバイパスする際の改善を観察する。
この改善はモデルとデータセット間で一般化可能であり、下流タスクのパフォーマンスを損なうTask-Interfering Layersの存在を示している。
本稿では,タスクが与えられたVLMの各層に介入する影響を定量化するタスク・レイヤ間相互作用ベクトルを提案する。
これらのタスク干渉層は、タスク固有の感度パターンを示す: 同様の機能を必要とするタスクは、それらのタスク-層相互作用ベクトルにおける高い類似性によって証明されるように、レイヤ介入の下で一貫した応答傾向を示す。
これらの知見にインスパイアされたTaLo(Task-Adaptive Layer Knockout)は,与えられたタスクに対して最も干渉するレイヤを動的に識別・バイパスする,トレーニング不要なテスト時間適応手法である。
パラメータを更新せずに、TaLoはさまざまなモデルとデータセットのパフォーマンスを改善し、ScienceQAのMapタスクにおけるQwen-VLの精度を最大16.6%向上させる。
我々の研究は、事前訓練されたVLMにおける予期せぬモジュラリティを明らかにし、推論時に隠れた機能をアンロックするためのプラグアンドプレイでトレーニング不要なメカニズムを提供する。
ソースコードは公開されます。
関連論文リスト
- Hierarchical Adaptive networks with Task vectors for Test-Time Adaptation [3.3834108313265916]
タスクベクトルを用いた階層型適応ネットワーク(Hi-Vec)を提案する。
Hi-Vecは、既存のメソッドが様々な複雑さのシフトに適応できるようにする。
挑戦的なシナリオや複数のターゲットデータセットにおいて、Hi-Vecの性能を厳格に評価する。
論文 参考訳(メタデータ) (2025-08-11T21:55:53Z) - LayerIF: Estimating Layer Quality for Large Language Models using Influence Functions [32.61633057149978]
事前訓練された大規模言語モデル(LLM)は、幅広いタスクで高いパフォーマンスを達成する。
LLMは、特定の下流アプリケーションに対して、様々なレイヤのトレーニング品質にかなりのばらつきを示す。
本稿では,各レイヤのトレーニング品質を,原則的かつタスクに敏感な方法で定量化するLayerIFを提案する。
論文 参考訳(メタデータ) (2025-05-27T10:55:12Z) - Layer-Aware Task Arithmetic: Disentangling Task-Specific and Instruction-Following Knowledge [12.367471198090655]
Task Arithmetic (TA)は、微調整から派生したタスクベクトルを組み合わせることで、マルチタスク学習とタスク忘れを可能にするが、一般的な指示追従行動からタスク固有の知識を分離するのに苦労する。
本稿では,命令フォローやタスク固有のコンポーネントとのアライメントに基づいて,階層固有の重みをタスクベクトルに割り当てる新しい手法であるLayer-Aware Task Arithmetic (LATA)を提案する。
論文 参考訳(メタデータ) (2025-02-27T15:22:14Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - Continual Object Detection via Prototypical Task Correlation Guided
Gating Mechanism [120.1998866178014]
pRotOtypeal taSk corrElaTion guided gaTingAnism (ROSETTA)による連続物体検出のためのフレキシブルなフレームワークを提案する。
具体的には、統一されたフレームワークはすべてのタスクで共有され、タスク対応ゲートは特定のタスクのサブモデルを自動的に選択するために導入されます。
COCO-VOC、KITTI-Kitchen、VOCのクラスインクリメンタル検出、および4つのタスクの逐次学習の実験により、ROSETTAが最先端のパフォーマンスを得ることが示された。
論文 参考訳(メタデータ) (2022-05-06T07:31:28Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - On Steering Multi-Annotations per Sample for Multi-Task Learning [79.98259057711044]
マルチタスク学習の研究はコミュニティから大きな注目を集めている。
目覚ましい進歩にもかかわらず、異なるタスクを同時に学習するという課題はまだ検討されていない。
従来の研究は、異なるタスクから勾配を修正しようとするが、これらの手法はタスク間の関係の主観的な仮定を与え、修正された勾配はより正確でないかもしれない。
本稿では,タスク割り当てアプローチによってこの問題に対処する機構であるタスク割当(STA)を紹介し,各サンプルをランダムにタスクのサブセットに割り当てる。
さらなる進展のために、我々は全てのタスクを反復的に割り当てるためにInterleaved Task Allocation(ISTA)を提案する。
論文 参考訳(メタデータ) (2022-03-06T11:57:18Z) - Distribution Matching for Heterogeneous Multi-Task Learning: a
Large-scale Face Study [75.42182503265056]
マルチタスク学習は、共有学習アルゴリズムによって複数のタスクを共同で学習する方法論として登場した。
我々は異種mtlに対処し,検出,分類,回帰問題を同時に解決する。
大規模な顔分析のための最初のフレームワークであるFaceBehaviorNetを構築し、すべての顔行動タスクを共同で学習する。
論文 参考訳(メタデータ) (2021-05-08T22:26:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。