論文の概要: ResMem: Learn what you can and memorize the rest
- arxiv url: http://arxiv.org/abs/2302.01576v2
- Date: Fri, 20 Oct 2023 22:52:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 13:45:39.898421
- Title: ResMem: Learn what you can and memorize the rest
- Title(参考訳): resmem: できることを学び、残りを記憶する
- Authors: Zitong Yang, Michal Lukasik, Vaishnavh Nagarajan, Zonglin Li, Ankit
Singh Rawat, Manzil Zaheer, Aditya Krishna Menon, Sanjiv Kumar
- Abstract要約: 本稿では,既存の予測モデルを拡張するための残差記憶アルゴリズム(ResMem)を提案する。
構築によって、ResMemはトレーニングラベルを明示的に記憶することができる。
ResMemは、元の予測モデルのテストセットの一般化を一貫して改善することを示す。
- 参考スコア(独自算出の注目度): 79.19649788662511
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The impressive generalization performance of modern neural networks is
attributed in part to their ability to implicitly memorize complex training
patterns. Inspired by this, we explore a novel mechanism to improve model
generalization via explicit memorization. Specifically, we propose the
residual-memorization (ResMem) algorithm, a new method that augments an
existing prediction model (e.g. a neural network) by fitting the model's
residuals with a $k$-nearest neighbor based regressor. The final prediction is
then the sum of the original model and the fitted residual regressor. By
construction, ResMem can explicitly memorize the training labels. Empirically,
we show that ResMem consistently improves the test set generalization of the
original prediction model across various standard vision and natural language
processing benchmarks. Theoretically, we formulate a stylized linear regression
problem and rigorously show that ResMem results in a more favorable test risk
over the base predictor.
- Abstract(参考訳): 現代のニューラルネットワークの印象的な一般化性能は、複雑なトレーニングパターンを暗黙的に記憶する能力に起因する。
これに触発されて、明示的な記憶によるモデル一般化を改善するための新しいメカニズムを探求する。
具体的には,モデル残差を$k$-nearestnext based regressorに適合させることにより,既存の予測モデル(ニューラルネットワークなど)を補強する新しい手法である残差記憶(resmem)アルゴリズムを提案する。
最終的な予測は、元のモデルと適合した残留回帰器の合計である。
構成により、resmemはトレーニングラベルを明示的に記憶することができる。
実験により、ResMemは様々な標準ビジョンと自然言語処理ベンチマークを用いて、元の予測モデルのテストセットの一般化を一貫して改善することを示した。
理論的には、スタイリングされた線形回帰問題を定式化し、ResMemがベース予測器よりも良好なテストリスクをもたらすことを示す。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Recurrent Reinforcement Learning with Memoroids [11.302674177386383]
我々は、軌道を潜在マルコフ状態にマッピングすることで、リカレントニューラルネットワーク(RNN)やトランスフォーマーなどのメモリモデルを研究する。
特にリニア・リカレント・モデル(Linear Recurrent Models)と呼ばれる新しいクラスのメモリモデルと比較すると、どちらのモデルも特に長いシーケンスにスケールしない。
我々は,メモロイドと呼ばれる新しいモノイドベースのフレームワークを用いて,既存のモデルを再構成する。
論文 参考訳(メタデータ) (2024-02-15T11:56:53Z) - Return of the RNN: Residual Recurrent Networks for Invertible Sentence
Embeddings [0.0]
本研究では、教師なし符号化タスクで訓練された残効再帰ネットワークを用いて、非可逆文埋め込みのための新しいモデルを提案する。
ニューラルネットワーク翻訳モデルに共通する確率的出力ではなく、回帰に基づく出力層を用いて入力シーケンスのワードベクトルを再構成する。
RNNはLSTMや2次最適化法などのメモリユニットを必要とすることを考えると、このモデルはADAMによる高精度かつ高速なトレーニングを実現している。
論文 参考訳(メタデータ) (2023-03-23T15:59:06Z) - Measuring and Reducing Model Update Regression in Structured Prediction
for NLP [31.86240946966003]
後方互換性は、新しいモデルが前者によって正しく処理されたケースに回帰しないことを要求する。
本研究は、構造化予測タスクにおける更新回帰をモデル化する。
本稿では,構造化出力の特性を考慮し,単純かつ効果的なバックワード・コングルエント・リグレード(BCR)を提案する。
論文 参考訳(メタデータ) (2022-02-07T07:04:54Z) - Regression Bugs Are In Your Model! Measuring, Reducing and Analyzing
Regressions In NLP Model Updates [68.09049111171862]
この研究は、NLPモデル更新における回帰エラーの定量化、低減、分析に重点を置いている。
回帰フリーモデル更新を制約付き最適化問題に定式化する。
モデルアンサンブルが回帰を減らす方法を実証的に分析します。
論文 参考訳(メタデータ) (2021-05-07T03:33:00Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z) - AI Feynman 2.0: Pareto-optimal symbolic regression exploiting graph
modularity [8.594811303203581]
本稿では,Pareto-Optimal式にデータを適合させようとする記号回帰法の改良について述べる。
これは、通常、ノイズや悪いデータに対して、桁違いに堅牢であることによって、過去の最先端を改善する。
ニューラルネットワークの勾配特性から一般化対称性を発見する手法を開発した。
論文 参考訳(メタデータ) (2020-06-18T18:01:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。