論文の概要: Generalization vs. Memorization in the Presence of Statistical Biases in Transformers
- arxiv url: http://arxiv.org/abs/2409.04654v1
- Date: Fri, 6 Sep 2024 23:33:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 21:14:48.259706
- Title: Generalization vs. Memorization in the Presence of Statistical Biases in Transformers
- Title(参考訳): 変圧器における統計的バイアスの有無の一般化と覚書化
- Authors: John Mitros, Damien Teney,
- Abstract要約: 以前の研究では、トランスフォーマーは必然的に急激な相関に依存することを学習し、一般化能力を過大評価する可能性があることが示されていた。
我々は,複数の合成アルゴリズムタスクにおけるトランスフォーマーモデルの評価を行い,これらのバイアスの存在を体系的に,そして変化させる。
以上の結果から,統計バイアスは分布外データに対するモデルの性能を損なうことが示唆され,一般化能力を過大評価する結果となった。
- 参考スコア(独自算出の注目度): 17.419942106096435
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study aims to understand how statistical biases affect the model's ability to generalize to in-distribution and out-of-distribution data on algorithmic tasks. Prior research indicates that transformers may inadvertently learn to rely on these spurious correlations, leading to an overestimation of their generalization capabilities. To investigate this, we evaluate transformer models on several synthetic algorithmic tasks, systematically introducing and varying the presence of these biases. We also analyze how different components of the transformer models impact their generalization. Our findings suggest that statistical biases impair the model's performance on out-of-distribution data, providing a overestimation of its generalization capabilities. The models rely heavily on these spurious correlations for inference, as indicated by their performance on tasks including such biases.
- Abstract(参考訳): 本研究の目的は,統計バイアスがアルゴリズム上の分布内および分布外データを一般化するモデルの能力にどのように影響するかを理解することである。
以前の研究は、トランスフォーマーがこれらの急激な相関に依存することを不注意に学び、一般化能力の過大評価に繋がることを示している。
そこで本研究では,これらのバイアスの存在を体系的に導入し,変化させることにより,いくつかのアルゴリズムタスクにおけるトランスフォーマーモデルの評価を行う。
また、変換器モデルの異なるコンポーネントが一般化に与える影響を分析する。
その結果,統計バイアスは分布外データの性能を損なうことが示唆され,一般化能力を過大評価する結果となった。
これらのモデルは、これらのバイアスを含むタスクのパフォーマンスによって示されるように、推論のためにこれらの急激な相関に大きく依存する。
関連論文リスト
- Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。
しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。
本稿では,テキスト・インフルエンス・ファンクション・フレームワークを開発することにより,このような課題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-10-17T17:59:02Z) - Learning Divergence Fields for Shift-Robust Graph Representations [73.11818515795761]
本研究では,相互依存データに対する問題に対して,学習可能な分散場を持つ幾何学的拡散モデルを提案する。
因果推論によって新たな学習目標が導出され、ドメイン間で無神経な相互依存の一般化可能なパターンを学習するためのモデルが導出される。
論文 参考訳(メタデータ) (2024-06-07T14:29:21Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - On the Strong Correlation Between Model Invariance and Generalization [54.812786542023325]
一般化は、見えないデータを分類するモデルの能力をキャプチャする。
不変性はデータの変換におけるモデル予測の一貫性を測定する。
データセット中心の視点から、あるモデルの精度と不変性は異なるテストセット上で線形に相関している。
論文 参考訳(メタデータ) (2022-07-14T17:08:25Z) - Studying Generalization Through Data Averaging [0.0]
本研究では,異なるデータセットのサンプルに対する差の平均から得られる一般化ギャップと,列車および試験性能について検討する。
我々はSGDノイズの関数として一般化ギャップとモデルトレインとテスト性能の相違についていくつかの側面を予測した。
論文 参考訳(メタデータ) (2022-06-28T00:03:40Z) - ER: Equivariance Regularizer for Knowledge Graph Completion [107.51609402963072]
我々は、新しい正規化器、すなわち等分散正規化器(ER)を提案する。
ERは、頭と尾のエンティティ間の意味的等価性を利用することで、モデルの一般化能力を高めることができる。
実験結果から,最先端関係予測法よりも明確かつ実質的な改善が示された。
論文 参考訳(メタデータ) (2022-06-24T08:18:05Z) - Fluctuations, Bias, Variance & Ensemble of Learners: Exact Asymptotics
for Convex Losses in High-Dimension [25.711297863946193]
我々は、異なる、しかし相関のある特徴に基づいて訓練された一般化線形モデルの集合における揺らぎの研究の理論を開発する。
一般凸損失と高次元限界における正則化のための経験的リスク最小化器の結合分布の完全な記述を提供する。
論文 参考訳(メタデータ) (2022-01-31T17:44:58Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Distinguishing rule- and exemplar-based generalization in learning
systems [10.396761067379195]
特徴レベルバイアスと例え-vs-ルールバイアスの2つの異なる帰納バイアスについて検討した。
ほとんどの標準ニューラルネットワークモデルは、模範に基づく外挿に対する正当性を持っている。
データ拡張、公平性、体系的一般化に関する研究において、これらの発見がもたらす意味について論じる。
論文 参考訳(メタデータ) (2021-10-08T18:37:59Z) - Learning Debiased Representation via Disentangled Feature Augmentation [19.348340314001756]
本稿では, 様々なバイアスを伴うサンプルを用いたトレーニングが, 脱バイアスに不可欠であることを示す実験的検討を行った。
本稿では, 多様なバイアス分散サンプルを合成するために, 特徴レベルのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-07-03T08:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。