論文の概要: Emergent properties with repeated examples
- arxiv url: http://arxiv.org/abs/2410.07041v1
- Date: Wed, 9 Oct 2024 16:28:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 22:57:18.163004
- Title: Emergent properties with repeated examples
- Title(参考訳): 繰り返し例による創発的特性
- Authors: François Charton, Julia Kempe,
- Abstract要約: 一定数のトレーニングステップに対して、より小さな反復例セットで訓練されたモデルが、より大きな単一使用例セットで訓練されたモデルより優れていることを示す。
2セットのトレーニング — サンプルの小さなランダムなサブセットを繰り返し使用すること、トレーニングセットの他の部分の通常のサンプリング — が、より高速な学習とパフォーマンスを実現することを実証しています。
- 参考スコア(独自算出の注目度): 11.049608786515842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the performance of transformers as a function of the number of repetitions of training examples with algorithmically generated datasets. On three problems of mathematics: the greatest common divisor, modular multiplication, and matrix eigenvalues, we show that for a fixed number of training steps, models trained on smaller sets of repeated examples outperform models trained on larger sets of single-use examples. We also demonstrate that two-set training - repeated use of a small random subset of examples, along normal sampling on the rest of the training set - provides for faster learning and better performance. This highlights that the benefits of repetition can outweigh those of data diversity. These datasets and problems provide a controlled setting to shed light on the still poorly understood interplay between generalization and memorization in deep learning.
- Abstract(参考訳): 本稿では,アルゴリズムによって生成されたデータセットを用いた学習例の繰り返し回数の関数としてのトランスフォーマーの性能について検討する。
数学の3つの問題(最大公約数、モジュラ乗算、行列固有値)について、一定数のトレーニングステップにおいて、より小さな反復例の集合で訓練されたモデルは、より大きな単用例の集合で訓練されたモデルより優れていることを示す。
2セットのトレーニング — サンプルの小さなランダムなサブセットを繰り返し使用すること、トレーニングセットの他の部分の通常のサンプリング — が、より高速な学習とパフォーマンスを実現することを実証しています。
このことは、反復の利点がデータの多様性よりも優れていることを強調している。
これらのデータセットと問題は、ディープラーニングにおける一般化と記憶の相互作用がまだ理解されていないことに光を当てるための制御された設定を提供する。
関連論文リスト
- Transformers are Minimax Optimal Nonparametric In-Context Learners [36.291980654891496]
大規模言語モデルのコンテキスト内学習は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。
我々は,ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。
十分に訓練されたトランスフォーマーは、文脈における最小推定リスクを達成し、改善できることを示す。
論文 参考訳(メタデータ) (2024-08-22T08:02:10Z) - Analysing Multi-Task Regression via Random Matrix Theory with Application to Time Series Forecasting [16.640336442849282]
我々は,マルチタスク最適化問題を正規化手法として定式化し,マルチタスク学習情報を活用することを可能とする。
線形モデルの文脈におけるマルチタスク最適化のための閉形式解を導出する。
論文 参考訳(メタデータ) (2024-06-14T17:59:25Z) - Deep Similarity Learning Loss Functions in Data Transformation for Class
Imbalance [2.693342141713236]
本稿では、ディープニューラルネットワークを用いて、マルチクラスデータの新しい表現を学習する。
本提案では,学習した組込み表現における例の位置などの特徴の分布を修正し,クラスサイズを変更しない。
マルチクラス不均衡ベンチマークデータセットと3つの分類器を用いた実験は,提案手法の利点を示した。
論文 参考訳(メタデータ) (2023-12-16T23:10:09Z) - Data Factors for Better Compositional Generalization [60.698130703909804]
我々は、異なるデータ要素を持つ様々なトレーニングセット上で、Transformerモデルをトレーニングすることで、経験的分析を行う。
データセットの複雑さが増大すると、複数の異なる一般化課題におけるより優れた一般化行動がもたらされることを示す。
難易度の異なるトレーニング例が一般化にどう影響するかを考察する。
論文 参考訳(メタデータ) (2023-11-08T01:27:34Z) - Mitigating the Learning Bias towards Repetition by Self-Contrastive
Training for Open-Ended Generation [92.42032403795879]
GPT2のような事前訓練された言語モデル(LM)は、繰り返しテキストを生成する傾向にあることを示す。
トークンレベルの反復確率の過大評価は学習バイアスに起因している。
LMは文レベルの繰り返しループの原因となる非繰り返しトークンよりも長い範囲依存を用いて繰り返しトークンを予測する。
論文 参考訳(メタデータ) (2023-07-04T07:53:55Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning [53.52699766206808]
In-Context Learning (RetICL) のための検索式を提案する。
RetICLは数学用語の問題解決と科学的質問応答のタスクに基づいて評価し,一貫した性能や一致,学習可能なベースラインを示す。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z) - Characterizing Datapoints via Second-Split Forgetting [93.99363547536392]
我々は、オリジナルのトレーニング例が忘れられた後(もしあれば)のエポックを追跡する補足的メトリックである$$-second-$split$$forgetting$$$time$ (SSFT)を提案する。
例えば$mislabeled$の例はすぐに忘れられ、$rare$の例は比較的ゆっくりと忘れられています。
SSFTは、(i)間違ったラベル付きサンプルを識別し、その除去により一般化が向上し、(ii)障害モードに関する洞察を提供する。
論文 参考訳(メタデータ) (2022-10-26T21:03:46Z) - A Transformer-based Framework for Multivariate Time Series
Representation Learning [12.12960851087613]
事前訓練されたモデルは、回帰や分類、予測、値計算の欠如といった下流タスクに使用することができる。
提案手法は,これまでに提示された多変量時系列の教師なし学習を用いた最も成功した手法であることを示す。
我々は、教師なしのトランスフォーマーモデルの事前学習が、完全に教師付き学習よりも大きなパフォーマンス上のメリットをもたらすことを実証した。
論文 参考訳(メタデータ) (2020-10-06T15:14:46Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。