Fugu-MT 論文翻訳(概要): Why Deep Learning Generalizes

論文の概要: Why Deep Learning Generalizes

arxiv url: http://arxiv.org/abs/2211.09639v1
Date: Thu, 17 Nov 2022 16:39:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-18 16:54:43.634017
Title: Why Deep Learning Generalizes
Title（参考訳）: ディープラーニングが一般化する理由
Authors: Benjamin L. Badger
Abstract要約: 一般化に対して暗記は難しいが,雑音の暗記を行うことで暗記が容易になる。勾配降下時のモデル入力に対して, モデルパラメータが最大安定性の点に惹きつけられることから, 一般化結果が得られた。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Very large deep learning models trained using gradient descent are remarkably resistant to memorization given their huge capacity, but are at the same time capable of fitting large datasets of pure noise. Here methods are introduced by which models may be trained to memorize datasets that normally are generalized. We find that memorization is difficult relative to generalization, but that adding noise makes memorization easier. Increasing the dataset size exaggerates the characteristics of that dataset: model access to more training samples makes overfitting easier for random data, but somewhat harder for natural images. The bias of deep learning towards generalization is explored theoretically, and we show that generalization results from a model's parameters being attracted to points of maximal stability with respect to that model's inputs during gradient descent.
Abstract（参考訳）: 勾配降下法を用いて訓練された非常に大きなディープラーニングモデルは、その膨大な能力から記憶への耐性が著しく高いが、同時に、純粋なノイズの大規模なデータセットを適合させることができる。ここでは、通常一般化されるデータセットを記憶するためにモデルを訓練することができる。一般化と比較して暗記は難しいが,雑音を加えると暗記が容易になる。より多くのトレーニングサンプルへのモデルアクセスにより、ランダムなデータではオーバーフィットが容易になりますが、自然画像では多少難しいのです。一般化への深層学習のバイアスを理論的に検討し,勾配降下時のモデルの入力に対して,モデルのパラメータが最大安定性の点に惹きつけられることから一般化が導かれることを示した。

関連論文リスト

Bigger Isn't Always Memorizing: Early Stopping Overparameterized Diffusion Models [51.03144354630136]
自然データ領域の一般化は、記憶の開始前に訓練中に徐々に達成される。一般化対メモ化は、時間スケール間の競合として最もよく理解される。この現象学は,確率論的文脈自由文法をランダムな規則で学習する拡散モデルにおいて復元されることを示す。
論文参考訳（メタデータ） (2025-05-22T17:40:08Z)
Decoding Generalization from Memorization in Deep Neural Networks [0.0]
一般化されたディープニューラルネットワークは、近年のDeep Learningの劇的な成功の鍵となった。ディープネットワークはトレーニングデータを記憶する能力を持っていることが知られており、クラスラベルが様々な程度にシャッフルされた破損したデータでトレーニングされたモデルに対して、完璧または高いトレーニング精度によって証明されている。ここでは,これらのモデルが,記憶の面においても,その表現に情報を持っていることを示すことによって,後者の可能性を示す証拠を提供する。
論文参考訳（メタデータ） (2025-01-24T18:01:27Z)
The Unreasonable Effectiveness of Easy Training Data for Hard Tasks [84.30018805150607]
既存の事前学習言語モデルが比較的容易にハードなデータから一般化されることがしばしばあるという驚くべき結論を提示する。本稿では,テキスト内学習,線形ヘッド,QLoRAなどの簡単な微調整手法を用いて,このような難解な一般化を実演する。本研究は, LMの難解な一般化が, 研究課題に対して驚くほど強いことを結論づける。
論文参考訳（メタデータ） (2024-01-12T18:36:29Z)
Non-Vacuous Generalization Bounds for Large Language Models [78.42762571499061]
事前訓練された大言語モデルに対して、最初の空でない一般化境界を提供する。より大きいモデルはより優れた一般化バウンダリを持ち、より小さなモデルよりも圧縮可能であることを示す。
論文参考訳（メタデータ） (2023-12-28T17:58:42Z)
Data Factors for Better Compositional Generalization [60.698130703909804]
我々は、異なるデータ要素を持つ様々なトレーニングセット上で、Transformerモデルをトレーニングすることで、経験的分析を行う。データセットの複雑さが増大すると、複数の異なる一般化課題におけるより優れた一般化行動がもたらされることを示す。難易度の異なるトレーニング例が一般化にどう影響するかを考察する。
論文参考訳（メタデータ） (2023-11-08T01:27:34Z)
What do larger image classifiers memorise? [64.01325988398838]
トレーニング例は, モデルサイズにまたがって, 予想外の多彩な記憶軌跡を示す。有効で一般的なモデル圧縮手法である知識蒸留は,記憶を阻害する傾向があり,一般化も改善する。
論文参考訳（メタデータ） (2023-10-09T01:52:07Z)
Phantom Embeddings: Using Embedding Space for Model Regularization in Deep Neural Networks [12.293294756969477]
機械学習モデルの強みは、データから複雑な関数近似を学ぶ能力に起因している。複雑なモデルはトレーニングデータを記憶する傾向があり、結果としてテストデータの正規化性能が低下する。情報豊富な潜伏埋め込みと高いクラス内相関を利用してモデルを正規化するための新しい手法を提案する。
論文参考訳（メタデータ） (2023-04-14T17:15:54Z)
The Curious Case of Benign Memorization [19.74244993871716]
データ拡張を含むトレーニングプロトコルの下で、ニューラルネットワークは、完全にランダムなラベルを良心的に記憶することを学ぶ。深層モデルでは,暗記作業と特徴学習を異なる層に分散することで,信号からノイズを分離する驚くべき能力があることを実証する。
論文参考訳（メタデータ） (2022-10-25T13:41:31Z)
Memorization Without Overfitting: Analyzing the Training Dynamics of Large Language Models [64.22311189896888]
因果的および仮面的言語モデリング、モデルサイズ、およびトレーニングプロセス全体における正確な記憶について検討する。驚くべきことに、大きなモデルは過度に適合する前にデータの大部分を記憶し、トレーニングプロセスを通して忘れる傾向にある。
論文参考訳（メタデータ） (2022-05-22T07:43:50Z)
Contrasting random and learned features in deep Bayesian linear regression [12.234742322758418]
本研究では,学習能力が単純なモデルの一般化性能に与える影響について検討する。すべての層が訓練されたディープネットワークと比較することにより、幅、深さ、データ密度、事前のミスマッチの相互作用を詳細に解析する。
論文参考訳（メタデータ） (2022-03-01T15:51:29Z)
Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文参考訳（メタデータ） (2022-02-15T18:48:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。