論文の概要: Attention Transfer Is Not Universally Effective for Vision Transformers
- arxiv url: http://arxiv.org/abs/2605.07191v1
- Date: Fri, 08 May 2026 03:39:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.77588
- Title: Attention Transfer Is Not Universally Effective for Vision Transformers
- Title(参考訳): 視覚変換器の注意伝達は普遍的に有効ではない
- Authors: Huaiyuan Qin, Muli Yang, Gabriel James Goenawan, Peng Hu, Chen Gong, Xi Peng, Hongyuan Zhu,
- Abstract要約: 我々はこの発見を、有名な11のVTファミリーの20人の教師のベンチマークで再考する。
7家族の移動は成功したが、4家族が一貫して失敗し、5.1%まで下がった。
事前学習した教師と標準学生のアーキテクチャミスマッチを主要なメカニズムとみなす。
- 参考スコア(独自算出の注目度): 47.26921741602587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A recent work shows that Attention Transfer, which transfers only the attention patterns from a pre-trained teacher Vision Transformer (ViT) to a randomly initialized standard student ViT, is sufficient to recover the full benefit of the teacher's pre-trained weights. We revisit this finding on a comprehensive benchmark of 20 teachers from 11 well-known ViT families and reveal that Attention Transfer is not universally effective. While 7 families transfer successfully, 4 consistently fail, falling up to 5.1\% below the from-scratch no-transfer baseline. Further results demonstrate that this failure is family-consistent across model sizes, and persists under extended training durations, different transfer datasets, and out-of-distribution evaluations. Controlled analyses then consistently localize the problem to the attention-routing channel, indicating that the key issue is not whether the student can match the teacher's attention patterns, but whether the matched patterns remain functional for the student. Crucially, we identify architectural mismatch between the pre-trained teacher and the standard student as the primary mechanism. By adding only the teacher's native architectural components to the student in a randomly initialized state, we completely reverse the failure for all 4 families. Notably, these components alone do not improve from-scratch training, confirming that they specifically unlock the usability of the teacher's attention. We further systematically show that this failure is not explained by the inadequate choice of transfer loss or by differences in pre-training recipes. Our findings refine the prevailing understanding of attention in ViT representations: attention is sufficient \textit{only} when the student architecture matches the teacher.
- Abstract(参考訳): 近年の研究では、事前学習した教師ビジョントランスフォーマー(ViT)からランダムに初期化された標準学生ViTへの注意パターンのみを伝達するアテンショントランスファーが、教師の事前学習した重量の完全なメリットを回復するのに十分であることを示す。
我々はこの発見を、11の有名なViTファミリーの20人の教師による総合的なベンチマークで再考し、注意伝達が普遍的に有効でないことを明らかにする。
7家族の移動は成功したが、4家族は常に失敗し、5.1 % まで下がった。
さらなる結果は、この失敗はモデルサイズ全体にわたってファミリー一貫性があり、トレーニング期間、異なる転送データセット、アウト・オブ・ディストリビューション評価の下で持続することを示している。
教師の注意パターンにマッチするかどうかではなく、学習者にとって一致したパターンが機能するかどうかである。
重要な点として,事前学習した教師と標準学生のアーキテクチャミスマッチを主要なメカニズムとして同定する。
教師のネイティブなアーキテクチャコンポーネントのみをランダムに初期化状態で生徒に追加することで、4つのファミリーの失敗を完全に逆転する。
特に、これらのコンポーネントだけでは、教師の注意力の活用性を特別に解き放つことを確認する、アウトスクラッチトレーニングは改善されない。
さらに、この失敗は、転送損失の不適切な選択や、事前学習のレシピの違いによって説明できないことを系統的に示す。
学生アーキテクチャが教師と一致する場合, 注意が十分である。
関連論文リスト
- From Correction to Mastery: Reinforced Distillation of Large Language Model Agents [13.982204994247718]
大規模言語モデルエージェントは反復的推論とツールの使用を通じて複雑なタスクの解決に長けている。
既存の蒸留手法は、小規模の生徒に完全な教師の軌跡を模倣するように訓練する。
本研究では,教師が最初期の誤りのみを訂正する学習者中心のフレームワークであるSCoReを提案する。
論文 参考訳(メタデータ) (2025-09-12T15:34:07Z) - Weak-to-Strong Generalization Even in Random Feature Networks, Provably [52.6431973649838]
GPT-4のような強力な学習者を必要としないことを示す。
我々は、弱い教師によってラベル付けされたデータにのみ訓練されたにもかかわらず、学生がいかに教師より優れているかを実証し、証明し、理解する。
論文 参考訳(メタデータ) (2025-03-04T18:58:00Z) - On the Surprising Effectiveness of Attention Transfer for Vision Transformers [118.83572030360843]
従来の知恵は、事前学習型視覚変換器(ViT)が有用な表現を学習することで、下流のパフォーマンスを向上させることを示唆している。
予備学習で学んだ特徴や表現は必須ではない。
論文 参考訳(メタデータ) (2024-11-14T18:59:40Z) - Flipped Classroom: Aligning Teacher Attention with Student in Generalized Category Discovery [37.81825377491515]
GCD(Generalized Category Discovery)は、教師が生徒に知識を与えてカテゴリーを分類する、教師/学生の枠組みである。
GCDは独特な課題、特に新しい授業の事前の欠如を示しており、教師の誤認と学生との非同期学習に繋がる可能性がある。
静的な教師参照を維持するのではなく,教師の注意に合わせるように動的に更新するFlipClassを導入する。
論文 参考訳(メタデータ) (2024-09-29T11:12:03Z) - Why does Knowledge Distillation Work? Rethink its Attention and Fidelity Mechanism [8.322293031346161]
パラドキカルな研究は、教師の行動を忠実に再現することは、生徒の一般化を一貫して改善しないことを示している。
我々は,この低忠実度現象を,KD訓練時の病理学よりも基礎的な特徴として提案する。
論文 参考訳(メタデータ) (2024-04-30T01:12:32Z) - Random Teachers are Good Teachers [19.74244993871716]
自己蒸留における教師-学生の学習力学によって引き起こされる暗黙の正規化について検討する。
このような無作為な教師に学生を蒸留する際には,その教師に対して高い精度で蒸留した生徒の強い改善を観察する。
論文 参考訳(メタデータ) (2023-02-23T15:26:08Z) - Does Knowledge Distillation Really Work? [106.38447017262183]
知識蒸留は学生の一般化を改善することができるが、一般的に理解されているようには機能しない。
学生が教師に合わない理由として,最適化の難しさがあげられる。
論文 参考訳(メタデータ) (2021-06-10T17:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。