論文の概要: Nonparametric Teaching of Attention Learners
- arxiv url: http://arxiv.org/abs/2602.20461v1
- Date: Tue, 24 Feb 2026 01:42:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.570606
- Title: Nonparametric Teaching of Attention Learners
- Title(参考訳): 注意学習者の非パラメトリック指導
- Authors: Chen Zhang, Jianghui Wang, Bingyang Cheng, Zhongtao Chen, Wendong XU, Cong Wang, Marco Canini, Francesco Orabona, Yik Chung WU, Ngai Wong,
- Abstract要約: 本稿では,非パラメトリック教育の観点から学習過程を再解釈する,Attention Neural Teaching (AtteNT) という新しいパラダイムを提案する。
具体的には,LLMでは13.01%,ViTでは20.58%のトレーニング時間短縮が観察された。
- 参考スコア(独自算出の注目度): 37.60057002655994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention learners, neural networks built on the attention mechanism, e.g., transformers, excel at learning the implicit relationships that relate sequences to their corresponding properties, e.g., mapping a given sequence of tokens to the probability of the next token. However, the learning process tends to be costly. To address this, we present a novel paradigm named Attention Neural Teaching (AtteNT) that reinterprets the learning process through a nonparametric teaching perspective. Specifically, the latter provides a theoretical framework for teaching mappings that are implicitly defined (i.e., nonparametric) via example selection. Such an implicit mapping is embodied through a dense set of sequence-property pairs, with the AtteNT teacher selecting a subset to accelerate convergence in attention learner training. By analytically investigating the role of attention on parameter-based gradient descent during training, and recasting the evolution of attention learners, shaped by parameter updates, through functional gradient descent in nonparametric teaching, we show for the first time that teaching attention learners is consistent with teaching importance-adaptive nonparametric learners. These new findings readily commit AtteNT to enhancing learning efficiency of attention learners. Specifically, we observe training time reductions of 13.01% for LLMs and 20.58% for ViTs, spanning both fine-tuning and training-from-scratch regimes. Crucially, these gains are achieved without compromising accuracy; in fact, performance is consistently preserved and often enhanced across a diverse set of downstream tasks.
- Abstract(参考訳): 注意学習者(英: Attention Learningers)は、注意機構(例えば、トランスフォーマー)に基づいて構築されたニューラルネットワークで、シーケンスと対応するプロパティ(例えば、あるトークンのシーケンスを次のトークンの確率にマッピングする)に関連する暗黙の関係を学習する。
しかし、学習プロセスはコストがかかる傾向がある。
そこで本研究では,非パラメトリック教育の観点から学習過程を再解釈する,AtteNT(Attention Neural Teaching)という新しいパラダイムを提案する。
具体的には、後者は例選択を通して暗黙的に定義される(つまり非パラメトリック)写像を教えるための理論的枠組みを提供する。
このような暗黙のマッピングは、シーケンスプロパティペアの密集したセットを通じて具現化され、AtteNT教師は、注意学習者の訓練における収束を加速するためにサブセットを選択する。
非パラメトリックな授業において,非パラメトリックな授業において,非パラメトリックな授業において,非パラメトリックな学習者に対して,非パラメトリックな学習者を教えることが重要であることを初めて示し,パラメータベースの勾配降下に対する注意の役割を分析的に検討し,パラメータ更新によって形づくられた注意学習者の進化を振り返る。
これらの新たな知見は、注意学習者の学習効率を高めるために容易にAtteNTをコミットする。
具体的には,LLMでは13.01%,ViTでは20.58%のトレーニング時間短縮が観察された。
重要なのは、これらのゲインは精度を損なうことなく達成され、実際、パフォーマンスは一貫して維持され、様々な下流タスクにまたがって拡張される。
関連論文リスト
- EKPC: Elastic Knowledge Preservation and Compensation for Class-Incremental Learning [53.88000987041739]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、AIモデルを、時間とともに異なるクラスのシーケンシャルに到着したデータから継続的に学習可能にすることを目的としている。
本稿では, 重要度を考慮した重要度正規化 (IPR) と CIL のためのトレーニング可能なセマンティックドリフト補償 (TSDC) を統合したElastic Knowledge Preservation and Compensation (EKPC) 法を提案する。
論文 参考訳(メタデータ) (2025-06-14T05:19:58Z) - Nonparametric Teaching for Graph Property Learners [21.96981353343662]
本稿では,新しい非パラメトリック教育の観点から学習過程を再解釈するグラフニューラル・インストラクション(GraNT)を提案する。
GraNTは、例の選択を通じて暗黙的に定義された(非パラメトリック)マッピングを教える理論的枠組みを提供する。
グラフ特性学習者が構造認識非パラメトリック学習者と整合性を示すのはこれが初めてである。
論文 参考訳(メタデータ) (2025-05-20T10:23:30Z) - Learning Continually by Spectral Regularization [45.55508032009977]
連続学習アルゴリズムは、ネットワークのトレーニング性を維持しながら、良好な性能を維持することにより、可塑性の損失を軽減する。
我々は,初期化時のニューラルネットワークパラメータの特異値が学習の初期段階におけるトレーニング容易性の重要な要因であることから着想を得た,継続学習を改善するための新しい手法を開発した。
提案するスペクトル正規化器は,連続的な教師付きおよび強化学習環境において,様々なモデルアーキテクチャの訓練性と性能を維持可能であることを示す実験的検討を行った。
論文 参考訳(メタデータ) (2024-06-10T21:34:43Z) - Nonparametric Teaching of Implicit Neural Representations [21.313485818701434]
オーバーパラメトリック化された多層パーセプトロンは、非パラメトリック学習者の教育と整合性を示す。
この新たな発見により、非パラメトリック学習アルゴリズムの便利なドロップインにより、INRトレーニングの効率が広く向上し、様々な入力モードで30%以上のトレーニング時間を節約できる。
論文 参考訳(メタデータ) (2024-05-17T04:20:39Z) - Nonparametric Teaching for Multiple Learners [20.75580803325611]
MINT(Multi-learner Nonparametric teaching)を導入した新しいフレームワークについて紹介する。
MINTは、複数の学習者を指導することを目的としており、各学習者はスカラー値のターゲットモデルを学習することに集中している。
我々は,MINTがシングルラーナー教育を繰り返すよりも指導のスピードアップが優れていることを実証した。
論文 参考訳(メタデータ) (2023-11-17T04:04:11Z) - TOAST: Transfer Learning via Attention Steering [77.83191769502763]
現在の伝達学習法は、しばしばタスク関連機能に焦点をあてることに失敗する。
タスク固有の特徴に注意を向ける新しい伝達学習アルゴリズムであるTop-Down Attention Steering(TOAST)を紹介する。
TOASTは、さまざまなきめ細かい視覚分類データセットのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2023-05-24T20:03:04Z) - HaLP: Hallucinating Latent Positives for Skeleton-based Self-Supervised
Learning of Actions [69.14257241250046]
ラベルなしの骨格に基づく行動認識のためのモデル学習のための新しいコントラスト学習手法を提案する。
私たちの重要な貢献は、単純なモジュールであるHalucinate Latent Positivesのコントラスト学習へのHalucinate HaLPです。
実験を通して、標準のコントラスト学習フレームワーク内でこれらの生成した正を使用すれば、一貫した改善がもたらされることを示す。
論文 参考訳(メタデータ) (2023-04-01T21:09:43Z) - A Message Passing Perspective on Learning Dynamics of Contrastive
Learning [60.217972614379065]
特徴空間に対照的な目的を同等に配置すると、その学習力学は解釈可能な形式を持つことを示す。
この視点はまた、対照的な学習とメッセージパッシンググラフニューラルネットワーク(MP-GNN)の間の興味深い関係を確立する。
論文 参考訳(メタデータ) (2023-03-08T08:27:31Z) - Toward Understanding the Feature Learning Process of Self-supervised
Contrastive Learning [43.504548777955854]
本研究では,その特徴学習過程を解析することにより,ニューラルネットワークの特徴表現のコントラスト学習について検討する。
textbfReLUネットワークを用いたコントラスト学習は、適切な拡張が採用されれば、所望のスパース特徴を確実に学習できることを実証する。
論文 参考訳(メタデータ) (2021-05-31T16:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。