論文の概要: Layer by layer, module by module: Choose both for optimal OOD probing of ViT
- arxiv url: http://arxiv.org/abs/2603.05280v1
- Date: Thu, 05 Mar 2026 15:23:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.295948
- Title: Layer by layer, module by module: Choose both for optimal OOD probing of ViT
- Title(参考訳): 層別, モジュール別モジュール: ViT の最適 OOD 探索のために両方を選択する
- Authors: Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel, Romain Tavenard, Ievgen Redko,
- Abstract要約: 予め学習した視覚変換器における中間層の挙動について検討する。
事前学習データと下流データの分布変化が性能劣化の主な原因であることがわかった。
- 参考スコア(独自算出の注目度): 16.482899285404145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have observed that intermediate layers of foundation models often yield more discriminative representations than the final layer. While initially attributed to autoregressive pretraining, this phenomenon has also been identified in models trained via supervised and discriminative self-supervised objectives. In this paper, we conduct a comprehensive study to analyze the behavior of intermediate layers in pretrained vision transformers. Through extensive linear probing experiments across a diverse set of image classification benchmarks, we find that distribution shift between pretraining and downstream data is the primary cause of performance degradation in deeper layers. Furthermore, we perform a fine-grained analysis at the module level. Our findings reveal that standard probing of transformer block outputs is suboptimal; instead, probing the activation within the feedforward network yields the best performance under significant distribution shift, whereas the normalized output of the multi-head self-attention module is optimal when the shift is weak.
- Abstract(参考訳): 近年の研究では、基礎モデルの中間層は最終層よりも識別的な表現が得られることが報告されている。
当初は自己回帰的事前訓練によるものであったが、この現象は、教師付きおよび差別的な自己監督目的によって訓練されたモデルでも特定されている。
本稿では,事前学習した視覚変換器における中間層の挙動を網羅的に解析する。
様々な画像分類ベンチマークを用いた線形探索実験により,より深い層における性能劣化の原因は,事前学習データと下流データの分布変化であることがわかった。
さらに,モジュールレベルできめ細かい解析を行う。
この結果から,トランスフォーマーブロック出力の標準探索は最適以下であることが判明した。代わりに,フィードフォワードネットワーク内でのアクティベーションは,大きな分散シフトの下で最高の性能が得られるのに対して,マルチヘッド自己保持モジュールの正規化出力はシフトが弱いときに最適である。
関連論文リスト
- Out-of-distribution transfer of PDE foundation models to material dynamics under extreme loading [86.6550968435969]
ほとんどのPDEファンデーションモデルは、流体中心のベンチマークに基づいて事前訓練され、微調整されている。
衝撃, 進化する界面, 破壊が非平滑な場を生み出す2つの不連続支配的体制について, 分布外移動をベンチマークする。
我々は,PDE基礎モデルであるPOSEIDONとMORPHを2つのオープンソースとして評価し,事前学習した重みからの微調整と,トレーニングセットのサイズによるスクラッチからのトレーニングを比較し,分散シフト下でのサンプル効率の定量化を行った。
論文 参考訳(メタデータ) (2026-03-04T18:19:35Z) - Beyond the final layer: Attentive multilayer fusion for vision transformers [45.627646781613386]
タスク関連情報は、最後のレイヤにのみエンコードされるのではなく、ネットワーク階層に分散されていることを示す。
視覚変換器のすべての層から動的に表現を融合する注意的探索機構を適用する。
このメカニズムは、ターゲットタスクの最も関連性の高いレイヤを特定し、低レベルの構造的キューと高レベルのセマンティック抽象化を組み合わせることを学習する。
論文 参考訳(メタデータ) (2026-01-14T09:50:09Z) - ECG-Soup: Harnessing Multi-Layer Synergy for ECG Foundation Models [17.400439953606913]
心電図のためのトランスフォーマーベース基礎モデル(ECG)は、近年、多くの下流アプリケーションで顕著な性能を達成している。
ECGは心臓病の診断と治療に用いられる。
論文 参考訳(メタデータ) (2025-08-27T20:30:03Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Directional Gradient Projection for Robust Fine-Tuning of Foundation Models [25.04763038570959]
ディディショナル・グラディエント・プロジェクション(DiGraP)は、グラデーションからブリッジの正規化や多目的最適化に至るまでの方向性情報を階層的に学習可能な手法である。
まず,画像分類による視覚質問回答 (VQA) ベンチマークの分析により,一様・多モードのギャップを埋める。
実験結果から,DiGraPは画像分類やVQAタスクにおいて,識別的,生成的バックボーンで既存のベースラインを一貫して上回ることがわかった。
論文 参考訳(メタデータ) (2025-02-21T19:31:55Z) - Universal Pooling Method of Multi-layer Features from Pretrained Models for Speaker Verification [7.005068872406135]
大規模事前学習ネットワークを活用した自動話者検証(ASV)研究の最近の進歩が達成されている。
ASVのための事前学習モデルの多層特性を利用するための新しい手法を提案する。
提案した層間処理が,事前学習モデルを利用する利点の最大化にどのように役立つかを示す。
論文 参考訳(メタデータ) (2024-09-12T05:55:32Z) - Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models [55.45444773200529]
大きな言語モデル(LLM)は印象的な自然言語能力を示すが、幻覚に苦しむ。
最近の研究は推論時の事実性を改善するための復号化技術に焦点を当てている。
論文 参考訳(メタデータ) (2024-04-14T19:45:35Z) - Deep Fusion: Capturing Dependencies in Contrastive Learning via Transformer Projection Heads [0.0]
Contrastive Learning (CL) は、ラベルのないデータを用いて特徴抽出モデルを訓練するための強力な方法として登場した。
近年の研究では、線形投射ヘッドポストバックボーンの導入により、モデル性能が著しく向上することが示唆されている。
コントラスト学習におけるプロジェクションヘッドの役割にトランスフォーマーの新たな応用を導入する。
論文 参考訳(メタデータ) (2024-03-27T15:24:54Z) - Enhancing Out-of-Distribution Detection with Multitesting-based Layer-wise Feature Fusion [11.689517005768046]
アウト・オブ・ディストリビューション(Out-of-distriion)サンプルは、トレーニング分布と比較して、局所的またはグローバルな特徴の変化を示す可能性がある。
本稿では,新しいフレームワーク,Multitesting-based Layer-wise Out-of-Distribution (OOD) を提案する。
本手法は, ベースライン法と比較して, 分布外検出の性能を効果的に向上させる。
論文 参考訳(メタデータ) (2024-03-16T04:35:04Z) - Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。
フェデレートラーニングにおいて最も顕著に用いられている。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - On the Trade-off of Intra-/Inter-class Diversity for Supervised
Pre-training [72.8087629914444]
教師付き事前学習データセットのクラス内多様性(クラス毎のサンプル数)とクラス間多様性(クラス数)とのトレードオフの影響について検討した。
トレーニング前のデータセットのサイズが固定された場合、最高のダウンストリームのパフォーマンスは、クラス内/クラス間の多様性のバランスがとれる。
論文 参考訳(メタデータ) (2023-05-20T16:23:50Z) - Domain Adaptation with Adversarial Training on Penultimate Activations [82.9977759320565]
教師なし領域適応(Unsupervised Domain Adaptation, UDA)の重要な目的は、ラベルなし対象データに対するモデル予測の信頼性を高めることである。
我々は,この戦略が,入力画像や中間特徴に対する敵対的訓練よりも予測信頼性を高める目的と,より効率的で相関性が高いことを示す。
論文 参考訳(メタデータ) (2022-08-26T19:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。