論文の概要: Beyond the final layer: Attentive multilayer fusion for vision transformers
- arxiv url: http://arxiv.org/abs/2601.09322v1
- Date: Wed, 14 Jan 2026 09:50:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.353029
- Title: Beyond the final layer: Attentive multilayer fusion for vision transformers
- Title(参考訳): 最終層を超えて:視覚変換器のための注意型多層核融合
- Authors: Laure Ciernik, Marco Morik, Lukas Thede, Luca Eyring, Shinichi Nakajima, Zeynep Akata, Lukas Muttenthaler,
- Abstract要約: タスク関連情報は、最後のレイヤにのみエンコードされるのではなく、ネットワーク階層に分散されていることを示す。
視覚変換器のすべての層から動的に表現を融合する注意的探索機構を適用する。
このメカニズムは、ターゲットタスクの最も関連性の高いレイヤを特定し、低レベルの構造的キューと高レベルのセマンティック抽象化を組み合わせることを学習する。
- 参考スコア(独自算出の注目度): 45.627646781613386
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the rise of large-scale foundation models, efficiently adapting them to downstream tasks remains a central challenge. Linear probing, which freezes the backbone and trains a lightweight head, is computationally efficient but often restricted to last-layer representations. We show that task-relevant information is distributed across the network hierarchy rather than solely encoded in any of the last layers. To leverage this distribution of information, we apply an attentive probing mechanism that dynamically fuses representations from all layers of a Vision Transformer. This mechanism learns to identify the most relevant layers for a target task and combines low-level structural cues with high-level semantic abstractions. Across 20 diverse datasets and multiple pretrained foundation models, our method achieves consistent, substantial gains over standard linear probes. Attention heatmaps further reveal that tasks different from the pre-training domain benefit most from intermediate representations. Overall, our findings underscore the value of intermediate layer information and demonstrate a principled, task aware approach for unlocking their potential in probing-based adaptation.
- Abstract(参考訳): 大規模なファンデーションモデルの台頭により、下流のタスクに効率的に適応することが、依然として中心的な課題である。
バックボーンを凍結し、軽量なヘッドを訓練する線形探索は計算効率が良いが、しばしば最終層表現に制限される。
タスク関連情報は、最後のレイヤにのみエンコードされるのではなく、ネットワーク階層に分散されていることを示す。
この情報分布を活用するために,視覚変換器のすべての層から動的に表現を融合する注意型探索機構を適用した。
このメカニズムは、ターゲットタスクの最も関連性の高いレイヤを特定し、低レベルの構造的キューと高レベルのセマンティック抽象化を組み合わせることを学習する。
20の多様なデータセットと複数の事前訓練された基礎モデルに対して,本手法は標準線形プローブよりも一貫した,実質的なゲインを達成する。
注意ヒートマップは、トレーニング済みのドメインとは異なるタスクが、ほとんどの中間表現の恩恵を受けることを明らかにしている。
本研究は, 中間層情報の価値を評価し, 探索に基づく適応の可能性を解き放つための, 原則的, タスク意識的アプローチを示すものである。
関連論文リスト
- Information-Theoretic Greedy Layer-wise Training for Traffic Sign Recognition [0.5024983453990065]
レイヤワイズトレーニングは、クロスエントロピー損失とバックプロパゲーションの必要性を排除する。
既存の階層的なトレーニングアプローチの多くは、比較的小さなデータセットでのみ評価されている。
本稿では,最近開発された決定論的情報ボトルネック(DIB)と行列に基づくR'enyiの$alpha$-orderエントロピー関数に基づく,階層的学習手法を提案する。
論文 参考訳(メタデータ) (2025-10-31T17:24:58Z) - Identifying Super Spreaders in Multilayer Networks [0.6990493129893112]
本稿では,グラフニューラルネットワークを利用して,そのようなネットワーク内のスーパースプレッダを識別する手法を提案する。
この目的のために、数百のネットワークにまたがる情報拡散をシミュレートしてデータセットを構築する。
我々のモデルであるTopSpreadersNetworkは、関係に依存しないエンコーダとカスタムアグリゲーション層で構成されています。
論文 参考訳(メタデータ) (2025-05-27T10:14:14Z) - PMA: Towards Parameter-Efficient Point Cloud Understanding via Point Mamba Adapter [54.33433051500349]
本稿では,事前学習モデルのすべての層から順序付き特徴系列を構成するPMAを提案する。
また、異なる層にまたがって共有される幾何学制約ゲートプロンプトジェネレータ(G2PG)を提案する。
論文 参考訳(メタデータ) (2025-05-27T09:27:16Z) - Layer by Layer: Uncovering Hidden Representations in Language Models [28.304269706993942]
中間層がよりリッチな表現をエンコードできることを示し、ダウンストリームタスクの幅広いパフォーマンスを改善することがよくある。
我々のフレームワークは、各層が情報圧縮と信号保存のバランスをとる方法を強調し、なぜ中層埋め込みが最終層の性能を上回るのかを明らかにする。
論文 参考訳(メタデータ) (2025-02-04T05:03:42Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - Deep Autoencoding Topic Model with Scalable Hybrid Bayesian Inference [55.35176938713946]
我々は、ガンマ分布の階層構造を用いて、その多確率層生成ネットワークを構築するディープ・オートエンコーディング・トピック・モデル(DATM)を開発した。
Weibull上向き変分エンコーダを提案する。このエンコーダは深層ニューラルネットワークを介して情報を上向きに伝播し,次いで下向き生成モデルを提案する。
大規模コーパス上での教師なしおよび教師なしの学習タスクにおいて,モデルの有効性とスケーラビリティを実証した。
論文 参考訳(メタデータ) (2020-06-15T22:22:56Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。