論文の概要: Transformer Learns Optimal Variable Selection in Group-Sparse Classification
- arxiv url: http://arxiv.org/abs/2504.08638v1
- Date: Fri, 11 Apr 2025 15:39:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 14:20:06.988410
- Title: Transformer Learns Optimal Variable Selection in Group-Sparse Classification
- Title(参考訳): 変圧器はグループスパース分類における最適変数選択を学習する
- Authors: Chenyang Zhang, Xuran Meng, Yuan Cao,
- Abstract要約: 群疎性」を持つ古典的統計モデルを学ぶためにトランスフォーマーをどのように訓練するかのケーススタディを提示する。
理論的には、勾配降下により訓練された一層変圧器は、注意機構を正確に利用して変数を選択することができる。
また, 予測精度を向上させるために, サンプル数に制限のある1層変圧器を新しい下流タスクに適用できることを実証した。
- 参考スコア(独自算出の注目度): 14.760685658938787
- License:
- Abstract: Transformers have demonstrated remarkable success across various applications. However, the success of transformers have not been understood in theory. In this work, we give a case study of how transformers can be trained to learn a classic statistical model with "group sparsity", where the input variables form multiple groups, and the label only depends on the variables from one of the groups. We theoretically demonstrate that, a one-layer transformer trained by gradient descent can correctly leverage the attention mechanism to select variables, disregarding irrelevant ones and focusing on those beneficial for classification. We also demonstrate that a well-pretrained one-layer transformer can be adapted to new downstream tasks to achieve good prediction accuracy with a limited number of samples. Our study sheds light on how transformers effectively learn structured data.
- Abstract(参考訳): トランスフォーマーは様々なアプリケーションで顕著な成功を収めている。
しかし、変圧器の成功は理論上は理解されていない。
本研究では、入力変数が複数のグループを形成し、ラベルは1つのグループの変数にのみ依存する「群間隔」を持つ古典的な統計モデルを学ぶためにトランスフォーマーをどのように訓練するかのケーススタディを示す。
理論的には、勾配降下により訓練された一層変圧器は、注意機構を正確に利用して変数を選択でき、無関係なものを無視し、分類に有用なものに集中できる。
また, 予測精度を向上させるために, サンプル数に制限のある1層変圧器を新しい下流タスクに適用できることを実証した。
我々の研究では、トランスフォーマーが構造データをどのように効果的に学習するかについて光を当てています。
関連論文リスト
- Learning Spectral Methods by Transformers [18.869174453242383]
多層トランスフォーマーは、十分な数の事前学習インスタンスを与えられた場合、アルゴリズム自体を学習可能であることを示す。
この学習パラダイムは、コンテキスト内学習設定とは異なるものであり、人間の脳の学習手順と似ている。
論文 参考訳(メタデータ) (2025-01-02T15:53:25Z) - One-Layer Transformer Provably Learns One-Nearest Neighbor In Context [48.4979348643494]
本研究では、1層変圧器が1層近傍の規則を学習する能力について検討する。
単一のソフトマックスアテンション層は、ワンアレスト隣人のように振る舞うことをうまく学ぶことができる。
論文 参考訳(メタデータ) (2024-11-16T16:12:42Z) - Adversarial Robustness of In-Context Learning in Transformers for Linear Regression [23.737606860443705]
本研究は,線形回帰タスクの設定に焦点をあてたテキストハイザック攻撃に対するトランスフォーマにおける文脈内学習の脆弱性について検討する。
まず,一層線形変圧器が非破壊的であり,任意の予測を出力できることを示す。
次に, 逆行訓練は, ファインタニング時にのみ適用しても, ハイジャック攻撃に対するトランスフォーマーの堅牢性を高めることを実証する。
論文 参考訳(メタデータ) (2024-11-07T21:25:58Z) - On the Training Convergence of Transformers for In-Context Classification of Gaussian Mixtures [20.980349268151546]
本研究は、文脈内分類タスクのための変圧器の訓練力学を理論的に研究することを目的とする。
本研究では, ある仮定の下でのガウス混合の文脈内分類において, 勾配勾配から学習した単層変圧器が線形速度で大域的最適モデルに収束することを示した。
論文 参考訳(メタデータ) (2024-10-15T16:57:14Z) - Trained Transformer Classifiers Generalize and Exhibit Benign Overfitting In-Context [25.360386832940875]
線形回帰タスクにおいて、線形変圧器がランダムなインスタンス上で事前学習されている場合、通常の最小二乗法と同様のアルゴリズムを用いて予測を行うことを示す。
いくつかの設定では、これらの訓練されたトランスフォーマーは「コンテキスト内の良性オーバーフィット」を示すことができる。
論文 参考訳(メタデータ) (2024-10-02T17:30:21Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。