論文の概要: DeAR: Fine-Grained VLM Adaptation by Decomposing Attention Head Roles
- arxiv url: http://arxiv.org/abs/2603.01111v2
- Date: Sat, 07 Mar 2026 13:51:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 12:41:25.937682
- Title: DeAR: Fine-Grained VLM Adaptation by Decomposing Attention Head Roles
- Title(参考訳): DeAR:アテンションヘッドロールの分解による細粒度VLM適応
- Authors: Yiming Ma, Hongkun Yang, Lionel Z. Wang, Bin Chen, Weizhi Xian, Jianzhi Teng,
- Abstract要約: textbfDeAR はtextbfDecomposing textbfAttention head textbfRoles によって微細な VLM 適応を実現するフレームワークである。
DeARはタスク適応と一般化のバランスを保ち、様々なタスクで過去の手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 8.564506908883667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt learning is a dominant paradigm for adapting pre-trained Vision-Language Models (VLMs) to downstream tasks. However, existing methods often rely on a simplistic, layer-centric view, assuming shallow layers capture general features while deep layers handle task-specific knowledge. This assumption results in uncontrolled interactions between learnable tokens and original tokens. Task-specific knowledge could degrades the model's core generalization and creates a trade-off between task adaptation and the preservation of zero-shot generalization. To address this, we challenge the layer-centric view and propose \textbf{DeAR}, a framework that achieves fine-grained VLM adaptation by \textbf{De}composing \textbf{A}ttention head \textbf{R}oles. We posit that the functional specialization within VLMs occurs not between layers, but at the finer-grained level of individual attention heads in the deeper layers. Based on this insight, we introduce a novel metric, Concept Entropy, to systematically classify attention heads into distinct functional roles: \textit{Attribute}, \textit{Generalization}, and \textit{Mixed}. Guided by these roles, we introduce specialized attribute tokens and a Role-Based Attention Mask mechanism to precisely control information flow, ensuring generalization heads remain isolated from task-specific knowledge. We further incorporate a Task-Adaptive Fusion Strategy for inference. Extensive experiments on fifteen datasets show that DeAR achieves a strong balance between task adaptation and generalization, outperforming previous methods across various tasks.
- Abstract(参考訳): プロンプト学習は、訓練済みのビジョンランゲージモデル(VLM)を下流タスクに適用するための支配的なパラダイムである。
しかしながら、既存のメソッドは、浅いレイヤが一般的な機能をキャプチャし、深いレイヤがタスク固有の知識を処理すると仮定して、単純化されたレイヤ中心のビューに依存することが多い。
この仮定は、学習可能なトークンと元のトークンの間の制御不能な相互作用をもたらす。
タスク固有の知識はモデルのコア一般化を劣化させ、タスク適応とゼロショット一般化の保存の間のトレードオフを生み出す。
これを解決するために,レイヤ中心のビューに挑戦し,textbf{A}ttention head \textbf{R}olesを合成して微細なVLM適応を実現するフレームワークである‘textbf{DeAR}を提案する。
VLM内の機能的特殊化は層間ではなく,より深い層内における個々の注意点のきめ細かいレベルで起こると仮定する。
そこで,本研究では,新たな概念エントロピー(Concept Entropy)を導入し,アテンションヘッドを異なる機能的役割に分類する: \textit{Attribute}, \textit{Generalization}, \textit{Mixed}。
これらの役割に導かれ、情報の流れを正確に制御し、タスク固有の知識から一般化ヘッドが分離されることを保証するために、特殊属性トークンとロールベースの注意マスク機構を導入する。
推論のためのタスク適応型統合戦略をさらに取り入れる。
15のデータセットに対する大規模な実験は、DeARがタスク適応と一般化の強いバランスを達成し、様々なタスクで過去の手法より優れていることを示している。
関連論文リスト
- Do All Individual Layers Help? An Empirical Study of Task-Interfering Layers in Vision-Language Models [51.754991950934375]
事前トレーニングされたVLMでは、すべてのレイヤがデフォルトで実行され、下流タスクで予測される。
パラメータをゼロにすることで、ひとつの層にインターベンションすることで、特定のタスクのパフォーマンスを向上させることができる。
与えられたタスクに対して最も干渉するレイヤを動的に識別し、バイパスする、トレーニング不要なテスト時間適応手法であるTaLoを提案する。
論文 参考訳(メタデータ) (2026-02-01T11:37:05Z) - Beyond the final layer: Attentive multilayer fusion for vision transformers [45.627646781613386]
タスク関連情報は、最後のレイヤにのみエンコードされるのではなく、ネットワーク階層に分散されていることを示す。
視覚変換器のすべての層から動的に表現を融合する注意的探索機構を適用する。
このメカニズムは、ターゲットタスクの最も関連性の高いレイヤを特定し、低レベルの構造的キューと高レベルのセマンティック抽象化を組み合わせることを学習する。
論文 参考訳(メタデータ) (2026-01-14T09:50:09Z) - RECALL: REpresentation-aligned Catastrophic-forgetting ALLeviation via Hierarchical Model Merging [33.22889542330089]
大規模言語モデル(LLM)の内部表現は、学習知識の信頼できるプロキシとして機能する。
本稿では,過去データにアクセスせずに連続的な学習を行うための表現認識モデル統合フレームワークRECALLを提案する。
論文 参考訳(メタデータ) (2025-10-23T12:17:37Z) - Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - MMRL++: Parameter-Efficient and Interaction-Aware Representation Learning for Vision-Language Models [4.828668077793944]
マルチモーダル表現学習は、テキストと画像エンコーダの両方に投影された空間トークンを表現トークンとして生成する。
MML++はパラメータ効率と対話性を考慮した拡張で、トレーニング可能なパラメータを大幅に削減する。
15データセットの実験では、MMRLとMMRL++が一貫して最先端のメソッドより優れていることが示されている。
論文 参考訳(メタデータ) (2025-05-15T08:43:53Z) - Learning Task Representations from In-Context Learning [67.66042137487287]
大規模言語モデル(LLM)は、文脈内学習(ICL)において顕著な習熟性を示した。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法は,テキスト中の実演からタスク固有の情報を抽出し,テキストと回帰タスクの両方で優れる。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Semantics-Oriented Multitask Learning for DeepFake Detection: A Joint Embedding Approach [77.65459419417533]
本稿では,セマンティクス指向のDeepFake検出タスクをサポートする自動データセット拡張手法を提案する。
また,顔画像とラベル(テキストによる記述で示される)を併用して予測を行う。
提案手法は,DeepFake検出の一般化性を向上し,人間の理解可能な説明を提供することで,ある程度のモデル解釈を行う。
論文 参考訳(メタデータ) (2024-08-29T07:11:50Z) - Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners [8.707819647492467]
視覚言語モデル全体(VLM)の精巧な精細化によるタスク固有情報の取得について検討する。
これらの問題を緩和するために,識別的視覚テキストタスクを設計するCLIP-CITEというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-04T15:22:54Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - HCVP: Leveraging Hierarchical Contrastive Visual Prompt for Domain
Generalization [69.33162366130887]
ドメイン一般化(DG)は、不変の機能を学ぶことによって、目に見えないシナリオに優れた機械学習モデルを作成するための取り組みである。
モデルにドメインレベルとタスク固有の特性を補足する新しい手法を提案する。
このアプローチは、特定の特徴から不変な特徴をより効果的に分離し、一般化を促進することを目的としている。
論文 参考訳(メタデータ) (2024-01-18T04:23:21Z) - Leveraging sparse and shared feature activations for disentangled
representation learning [112.22699167017471]
本稿では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。
我々は6つの実世界分布シフトベンチマークと異なるデータモダリティに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-04-17T01:33:24Z) - Distribution Matching for Heterogeneous Multi-Task Learning: a
Large-scale Face Study [75.42182503265056]
マルチタスク学習は、共有学習アルゴリズムによって複数のタスクを共同で学習する方法論として登場した。
我々は異種mtlに対処し,検出,分類,回帰問題を同時に解決する。
大規模な顔分析のための最初のフレームワークであるFaceBehaviorNetを構築し、すべての顔行動タスクを共同で学習する。
論文 参考訳(メタデータ) (2021-05-08T22:26:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。