Fugu-MT 論文翻訳(概要): Transformers Learn Low Sensitivity Functions: Investigations and Implications

論文の概要: Transformers Learn Low Sensitivity Functions: Investigations and Implications

arxiv url: http://arxiv.org/abs/2403.06925v2
Date: Thu, 13 Feb 2025 18:58:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-14 20:05:34.815567
Title: Transformers Learn Low Sensitivity Functions: Investigations and Implications
Title（参考訳）: 低感度関数を学習するトランスフォーマー:調査と意味
Authors: Bhavya Vasudeva, Deqing Fu, Tianyi Zhou, Elliott Kau, Youqi Huang, Vatsal Sharan,
Abstract要約: トランスフォーマーは多くのタスクで最先端の精度と堅牢性を達成する。入力におけるトークンのランダムな摂動に対するモデルの感度を統一計量として同定する。我々は、CNN、CNN、ConvMixers、LSTMよりも、視覚と言語の両方のタスクにおいて、トランスフォーマーの感度が低いことを示す。
参考スコア（独自算出の注目度）: 18.77893015276986
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Transformers achieve state-of-the-art accuracy and robustness across many tasks, but an understanding of their inductive biases and how those biases differ from other neural network architectures remains elusive. In this work, we identify the sensitivity of the model to token-wise random perturbations in the input as a unified metric which explains the inductive bias of transformers across different data modalities and distinguishes them from other architectures. We show that transformers have lower sensitivity than MLPs, CNNs, ConvMixers and LSTMs, across both vision and language tasks. We also show that this low-sensitivity bias has important implications: i) lower sensitivity correlates with improved robustness; it can also be used as an efficient intervention to further improve the robustness of transformers; ii) it corresponds to flatter minima in the loss landscape; and iii) it can serve as a progress measure for grokking. We support these findings with theoretical results showing (weak) spectral bias of transformers in the NTK regime, and improved robustness due to the lower sensitivity. The code is available at https://github.com/estija/sensitivity.
Abstract（参考訳）: トランスフォーマーは多くのタスクにおいて最先端の精度と堅牢性を達成するが、誘導バイアスとそれらのバイアスが他のニューラルネットワークアーキテクチャとどのように異なるかを理解することは、まだ解明されていない。本研究では,入力中のトークンのランダムな摂動に対するモデルの感度を,異なるデータモダリティにまたがる変圧器の帰納バイアスを説明する統一計量として同定し,他のアーキテクチャと区別する。 MLP, CNN, ConvMixers, LSTMよりも, 視覚と言語の両方において感度が低いことを示す。また、この低感度バイアスが重要な意味を持つことも示しています。一感度の低下は、堅牢性の向上と相関しており、また、変圧器の堅牢性をさらに向上させるための効率的な介入としても使用することができる。二ロスランドスケープにおける平らなミニマに相当するもの三グルーキングの進捗措置として機能することができる。本研究は,NTK系変圧器の(弱)スペクトルバイアスを示す理論的結果と,感度低下によるロバスト性の向上を裏付けるものである。コードはhttps://github.com/estija/sensitivityで入手できる。

関連論文リスト

A distributional simplicity bias in the learning dynamics of transformers [50.91742043564049]
自然言語データに基づいてトレーニングされたトランスフォーマーは、単純さのバイアスも示している。具体的には、入力トークン間の多体相互作用を逐次学習し、低次相互作用の予測誤差において飽和点に達する。このアプローチは、自然言語処理などにおいて、データ内の異なる順序の相互作用が学習にどのように影響するかを研究する可能性を開く。
論文参考訳（メタデータ） (2024-10-25T15:39:34Z)
What Does It Mean to Be a Transformer? Insights from a Theoretical Hessian Analysis [8.008567379796666]
Transformerアーキテクチャは、間違いなくディープラーニングに革命をもたらした。中心となる注意ブロックは、ディープラーニングにおける他のほとんどのアーキテクチャコンポーネントと形式と機能の違いです。これらの外向きの表現の背後にある根本原因と、それらを管理する正確なメカニズムは、まだ理解されていないままである。
論文参考訳（メタデータ） (2024-10-14T18:15:02Z)
Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。 Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文参考訳（メタデータ） (2024-10-07T17:57:38Z)
Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文参考訳（メタデータ） (2024-06-24T23:00:58Z)
Why are Sensitive Functions Hard for Transformers? [1.0632690677209804]
トランスアーキテクチャでは,ロスランドスケープは入力空間の感度によって制約されていることを示す。我々は,この理論が変圧器の学習能力とバイアスに関する幅広い経験的観察を統一することを示す。
論文参考訳（メタデータ） (2024-02-15T14:17:51Z)
A Scalable Walsh-Hadamard Regularizer to Overcome the Low-degree Spectral Bias of Neural Networks [79.28094304325116]
任意の関数を学習するニューラルネットワークの能力にもかかわらず、勾配降下によって訓練されたモデルは、しばしばより単純な関数に対するバイアスを示す。我々は、この低度周波数に対するスペクトルバイアスが、現実のデータセットにおけるニューラルネットワークの一般化を実際にいかに損なうかを示す。本稿では,ニューラルネットワークによる高次周波数学習を支援する,スケーラブルな機能正規化手法を提案する。
論文参考訳（メタデータ） (2023-05-16T20:06:01Z)
Mitigating Bias in Visual Transformers via Targeted Alignment [8.674650784377196]
コンピュータビジョンに適用されたトランスフォーマーの公正性について検討し、先行研究からいくつかのバイアス緩和アプローチをベンチマークする。本稿では,主にクエリ行列の特徴からバイアスを発見し,除去することを目的とした,デバイアス変換器のアライメント戦略であるTADeTを提案する。
論文参考訳（メタデータ） (2023-02-08T22:11:14Z)
Simplicity Bias in Transformers and their Ability to Learn Sparse Boolean Functions [29.461559919821802]
最近の研究によると、トランスフォーマーは反復モデルと比較していくつかの形式言語をモデル化するのに苦労している。このことは、トランスフォーマーが実際になぜうまく機能するのか、また、リカレントモデルよりも良く一般化できるプロパティがあるかどうかという疑問を提起する。
論文参考訳（メタデータ） (2022-11-22T15:10:48Z)
Neural networks trained with SGD learn distributions of increasing complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。その後、トレーニング中にのみ高次の統計を利用する。本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文参考訳（メタデータ） (2022-11-21T15:27:22Z)
The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文参考訳（メタデータ） (2022-10-12T15:25:19Z)
The Nuts and Bolts of Adopting Transformer in GANs [124.30856952272913]
高忠実度画像合成のためのGAN(Generative Adversarial Network)フレームワークにおけるTransformerの特性について検討する。我々の研究は、STrans-Gと呼ばれる畳み込みニューラルネットワーク(CNN)フリージェネレータであるGANにおけるトランスフォーマーの新しい代替設計につながる。
論文参考訳（メタデータ） (2021-10-25T17:01:29Z)
Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。 ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文参考訳（メタデータ） (2021-05-17T02:39:22Z)
On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文参考訳（メタデータ） (2021-03-29T14:48:24Z)
Translational Equivariance in Kernelizable Attention [3.236198583140341]
本稿では,カーネル可能な注意に基づく効率的なトランスフォーマにおいて,翻訳等価性を実現する方法を示す。実験では,提案手法が入力画像のシフトに対する演奏者のロバスト性を大幅に改善することを強調する。
論文参考訳（メタデータ） (2021-02-15T17:14:15Z)
Robustness Verification for Transformers [165.25112192811764]
我々はトランスフォーマーのための最初のロバスト性検証アルゴリズムを開発した。提案手法で計算したロバスト性境界は, 素粒子間境界伝播法で計算したロバスト性境界よりもかなり厳密である。これらの境界はまた、感情分析における異なる単語の重要性を常に反映しているトランスフォーマーの解釈にも光を当てている。
論文参考訳（メタデータ） (2020-02-16T17:16:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。