論文の概要: Trapped by simplicity: When Transformers fail to learn from noisy features
- arxiv url: http://arxiv.org/abs/2602.08695v1
- Date: Mon, 09 Feb 2026 14:14:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.274652
- Title: Trapped by simplicity: When Transformers fail to learn from noisy features
- Title(参考訳): シンプルさに引っかかる:トランスフォーマーがノイズの多い機能から学べなかったとき
- Authors: Evan Peters, Ando Deng, Matheus H. Zambianco, Devin Blankespoor, Achim Kempf,
- Abstract要約: ノイズのない特徴のラベルを正確に予測するターゲット関数を見つけることができるノイズの多い特徴を持つデータに対して、変換器は訓練されているか?
特に最適解の感度が目標関数の感度よりも小さい場合、トランスフォーマーはランダムな$k$-juntasのノイズロスト学習に失敗する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Noise is ubiquitous in data used to train large language models, but it is not well understood whether these models are able to correctly generalize to inputs generated without noise. Here, we study noise-robust learning: are transformers trained on data with noisy features able to find a target function that correctly predicts labels for noiseless features? We show that transformers succeed at noise-robust learning for a selection of $k$-sparse parity and majority functions, compared to LSTMs which fail at this task for even modest feature noise. However, we find that transformers typically fail at noise-robust learning of random $k$-juntas, especially when the boolean sensitivity of the optimal solution is smaller than that of the target function. We argue that this failure is due to a combination of two factors: transformers' bias toward simpler functions, combined with an observation that the optimal function for noise-robust learning typically has lower sensitivity than the target function for random boolean functions. We test this hypothesis by exploiting transformers' simplicity bias to trap them in an incorrect solution, but show that transformers can escape this trap by training with an additional loss term penalizing high-sensitivity solutions. Overall, we find that transformers are particularly ineffective for learning boolean functions in the presence of feature noise.
- Abstract(参考訳): 雑音は、大きな言語モデルを訓練するために使われるデータの中ではユビキタスであるが、これらのモデルがノイズなしで生成された入力に正しく一般化できるかどうかはよく分かっていない。
ノイズのない特徴のラベルを正確に予測するターゲット関数を見つけることのできるノイズの多い特徴を持つデータに対して、変換器は訓練されているか?
本研究は,このタスクにおいて,低速な特徴雑音に対してフェールするLSTMと比較して,$k$sparseパリティと多数関数を選択することで,ノイズローバスト学習に成功していることを示す。
しかし,特に最適解のブール感度が目標関数よりも小さい場合,変圧器はランダムな$k$-juntasのノイズローバスト学習に失敗する。
この失敗は、単純な関数に対するトランスフォーマーのバイアスと、ノイズロバスト学習の最適関数が、ランダムなブール関数の目標関数よりも感度が低いという観察の2つの要因が組み合わさったものである、と我々は主張する。
我々は,この仮説をトランスフォーマーの単純さのバイアスを利用して不正確な解にトラップすることで検証するが,高感度解をペナルティ化する新たな損失項でトレーニングすることで,トランスフォーマーがこのトラップから逃れることができることを示す。
全体として,特徴雑音の存在下でのブール関数の学習にはトランスフォーマーが特に有効でないことが判明した。
関連論文リスト
- Transformers for Learning on Noisy and Task-Level Manifolds: Approximation and Generalization Insights [47.62295798627317]
この研究は、多様体上のノイズの多い入力データを含む回帰タスクにおける変換器の性能を分析することによって理論的基礎を確立する。
我々は、多様体の内在次元に決定的に依存する近似と一般化誤差を証明した。
この結果から,入力データに高次元ノイズが伴う場合においても,学習課題における低複雑さ構造を活用できることが示唆された。
論文 参考訳(メタデータ) (2025-05-06T05:41:46Z) - One-Layer Transformer Provably Learns One-Nearest Neighbor In Context [48.4979348643494]
本研究では、1層変圧器が1層近傍の規則を学習する能力について検討する。
単一のソフトマックスアテンション層は、ワンアレスト隣人のように振る舞うことをうまく学ぶことができる。
論文 参考訳(メタデータ) (2024-11-16T16:12:42Z) - Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Simplicity Bias in Transformers and their Ability to Learn Sparse
Boolean Functions [29.461559919821802]
最近の研究によると、トランスフォーマーは反復モデルと比較していくつかの形式言語をモデル化するのに苦労している。
このことは、トランスフォーマーが実際になぜうまく機能するのか、また、リカレントモデルよりも良く一般化できるプロパティがあるかどうかという疑問を提起する。
論文 参考訳(メタデータ) (2022-11-22T15:10:48Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。