論文の概要: Towards Understanding Self-Pretraining for Sequence Classification
- arxiv url: http://arxiv.org/abs/2605.21070v1
- Date: Wed, 20 May 2026 11:56:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.653307
- Title: Towards Understanding Self-Pretraining for Sequence Classification
- Title(参考訳): シーケンス分類のための自己訓練の理解に向けて
- Authors: Omar Coser, Loredana Zollo, Paolo Soda, Antonio Orvieto,
- Abstract要約: Amos et al. (2024) は、外部データや拡張を伴わないマスク付きトークン予測目標を用いた事前訓練により、シーケンス分類におけるトランスフォーマーモデルの精度を大幅に向上できることを示した。
ラベル管理は,特定の注意スコアの方向に対して局所的に盲目であり,マスクによる再建によって検出可能であることを示す。
- 参考スコア(独自算出の注目度): 15.692598361763055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Amos et al. (2024) showed that the accuracy of Transformer models in sequence classification can be significantly improved by first pretraining with a masked token prediction objective without external data or augmentation, a procedure referred to as self-pretraining (SPT). While the primary objective of Amos et al. (2024) was to showcase that Transformers can achieve strong performance on the Long-Range Arena (LRA), their pipeline raises more fundamental questions: How does SPT drive optimization to better solutions? Why can standard supervised training fail in Transformers? To better understand this, we replicate and systematically ablate the findings of Amos et al. (2024). Our ablations suggest that a central bottleneck in the studied settings is not depth or generalization alone, but the ability of label supervision to learn useful query-key Attention patterns from random initialization. With a minimal setup, we identify learning proximity interactions - turning absolute positional encodings into proximity-biased Attention scores - as a key source of the improvements brought by SPT. Finally, in a simplified theoretical setup, we show that label supervision can be locally blind to certain Attention-score directions that are instead detectable through masked reconstruction.
- Abstract(参考訳): Amos et al (2024) は、外部データや拡張なしでマスクされたトークン予測目標を用いて事前訓練を行うことで、シーケンス分類におけるトランスフォーマーモデルの精度を著しく向上させることができることを示した。
Amos et al (2024) の主な目的は、Transformers がLong-Range Arena (LRA) 上で強力なパフォーマンスを達成できることを示すことだった。
なぜトランスフォーマーで標準教師ありトレーニングが失敗するのか?
そこで我々はAmos et al (2024) の発見を再現し, 体系的に改善した。
提案手法は,学習環境における中心的なボトルネックは深度や一般化ではなく,ランダムな初期化から有用なクエリキー注意パターンを学習するためのラベル管理能力であることが示唆された。
最小限の設定で、絶対位置エンコーディングを近接バイアスの注意スコアに変換する学習近接相互作用を、SPTがもたらす改善の鍵となる情報源として特定する。
最後に, 簡易な理論的設定により, ラベル管理は特定の注意スコア方向に対して局所的に盲目であり, マスクによる再構成によって検出可能であることを示す。
関連論文リスト
- Masked Contrastive Pre-Training Improves Music Audio Key Detection [38.40028026040883]
本研究は,自己指導型事前学習の設計がピッチ感度に直接影響を及ぼすことを示す最初の体系的な研究である。
マスク付きコントラスト埋め込みにより、教師付きセッティングにおけるキー検出における最先端(SOTA)のパフォーマンスが一意に向上する。
論文 参考訳(メタデータ) (2026-04-11T04:22:17Z) - Improving DNS Exfiltration Detection via Transformer Pretraining [0.0]
変換器(BERT)モデルからの双方向表現のドメイン内事前学習は、偽陽性率の低いサブドメインレベルの抽出を改善する。
私たちは、検証の操作ポイントを凍結し、テストセットに転送する制御パイプラインを開発します。
論文 参考訳(メタデータ) (2026-04-09T15:58:34Z) - Continual Learning with Query-Only Attention [0.0]
継続的な学習には、データポイントを繰り返すことなく、データのストリームから学ぶことが含まれる。
本稿では,キーと値を捨てるクエリのみのアテンション機構を提案する。
論文 参考訳(メタデータ) (2025-10-01T00:14:34Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - SMART: Self-supervised Multi-task pretrAining with contRol Transformers [34.604339091596884]
自己指導型事前訓練は言語と視覚領域で広く研究されている。
シーケンシャルな意思決定タスクのための事前学習アプローチを適切に設計することは困難である。
逐次意思決定のための一般的な事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-24T05:01:23Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Prior Knowledge-Guided Attention in Self-Supervised Vision Transformers [79.60022233109397]
本研究では、未ラベル画像データセットにおける一貫した空間的・意味的構造を利用するフレームワークである空間的事前注意(SPAN)を提案する。
SPANは、アテンションマスクを別個のトランスフォーマーヘッドから正規化し、セマンティック領域の様々な先導に従う。
その結果,アテンションマスクは,ドメインに依存しない事前学習から得られるマスクよりも解釈可能であることが判明した。
論文 参考訳(メタデータ) (2022-09-07T02:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。