論文の概要: Transferring Learning Trajectories of Neural Networks
- arxiv url: http://arxiv.org/abs/2305.14122v1
- Date: Tue, 23 May 2023 14:46:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 15:32:44.607578
- Title: Transferring Learning Trajectories of Neural Networks
- Title(参考訳): ニューラルネットワークの学習軌跡の伝達
- Authors: Daiki Chijiwa
- Abstract要約: 深層ニューラルネットワーク(DNN)のトレーニングには計算コストがかかる。
我々は、与えられた学習軌跡を1つの初期パラメータから別のパラメータへ"転送する"という問題を定式化する。
直接学習する前に、転送されたパラメータが非自明な精度を達成することを実証的に示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training deep neural networks (DNNs) is computationally expensive, which is
problematic especially when performing duplicated training runs, such as model
ensemble or knowledge distillation. Once we have trained one DNN on some
dataset, we have its learning trajectory (i.e., a sequence of intermediate
parameters during training) which may potentially contain useful information
for learning the dataset. However, there has been no attempt to utilize such
information of a given learning trajectory for another training. In this paper,
we formulate the problem of "transferring" a given learning trajectory from one
initial parameter to another one, called learning transfer problem, and derive
the first algorithm to approximately solve it by matching gradients
successively along the trajectory via permutation symmetry. We empirically show
that the transferred parameters achieve non-trivial accuracy before any direct
training. Also, we analyze the loss landscape property of the transferred
parameters, especially from a viewpoint of mode connectivity.
- Abstract(参考訳): 深層ニューラルネットワーク(DNN)のトレーニングは計算コストが高く、特にモデルアンサンブルや知識蒸留のような重複トレーニングの実行では問題となる。
あるデータセットで1つのdnnをトレーニングすると、その学習軌跡(トレーニング中の中間パラメータのシーケンス)があり、データセットの学習に有用な情報を含む可能性がある。
しかし、ある学習軌跡のそのような情報を他の訓練に活用する試みは行われていない。
本稿では,与えられた学習軌跡を1つの初期パラメータから別のパラメータへ"転送する"という問題を定式化し,置換対称性を通した軌道に沿った勾配の整合により,学習伝達問題と呼ばれる最初のアルゴリズムを導出する。
直接トレーニングを行う前に,伝達パラメータが非自明な精度が得られることを実証的に示す。
また,移動パラメータの損失景観特性,特にモード接続性の観点から解析を行った。
関連論文リスト
- DeepONet as a Multi-Operator Extrapolation Model: Distributed Pretraining with Physics-Informed Fine-Tuning [6.635683993472882]
マルチオペレータ学習を実現するためのファインチューニング手法を提案する。
本手法は,事前学習における各種演算子からのデータを分散学習と組み合わせ,物理インフォームド手法によりゼロショット微調整が可能となる。
論文 参考訳(メタデータ) (2024-11-11T18:58:46Z) - Learn, Unlearn and Relearn: An Online Learning Paradigm for Deep Neural
Networks [12.525959293825318]
我々は、ディープニューラルネットワーク(DNN)のためのオンライン学習パラダイムであるLearning, Unlearn, and Relearn(LURE)を紹介する。
LUREは、モデルの望ましくない情報を選択的に忘れる未学習フェーズと、一般化可能な特徴の学習を強調する再学習フェーズとを交換する。
トレーニングパラダイムは、分類と少数ショット設定の両方において、データセット間で一貫したパフォーマンス向上を提供します。
論文 参考訳(メタデータ) (2023-03-18T16:45:54Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - Transfer Learning via Test-Time Neural Networks Aggregation [11.42582922543676]
ディープニューラルネットワークが従来の機械学習より優れていることが示されている。
ディープ・ネットワークは一般性に欠けており、異なる分布から引き出された新しい(テスト)セットでは性能が良くない。
論文 参考訳(メタデータ) (2022-06-27T15:46:05Z) - Reconstructing Training Data from Trained Neural Networks [42.60217236418818]
いくつかのケースでは、トレーニングデータのかなりの部分が、実際にトレーニングされたニューラルネットワーク分類器のパラメータから再構成可能であることを示す。
本稿では,勾配に基づくニューラルネットワークの学習における暗黙バイアスに関する最近の理論的結果から,新たな再構成手法を提案する。
論文 参考訳(メタデータ) (2022-06-15T18:35:16Z) - Task-Customized Self-Supervised Pre-training with Scalable Dynamic
Routing [76.78772372631623]
セルフ教師付き事前トレーニングの一般的な実践は、できるだけ多くのデータを使用することである。
しかし、特定のダウンストリームタスクでは、事前トレーニングで無関係なデータを含むと、ダウンストリームのパフォーマンスが低下する可能性がある。
異なるタスクのための事前トレーニングで、異なるダウンストリームタスクにカスタマイズされたデータセットを使用することは、重荷であり、実現不可能である。
論文 参考訳(メタデータ) (2022-05-26T10:49:43Z) - A Meta-Learned Neuron model for Continual Learning [0.0]
継続的な学習は、以前に学んだ知識を忘れずに新しい知識を得る能力である。
本研究では、標準的なニューロンをメタ学習ニューロンモデルで置き換える。
提案手法は,トレーニングサンプルのデータセット長シーケンスを記憶し,その学習能力を任意のドメインに一般化する。
論文 参考訳(メタデータ) (2021-11-03T23:39:14Z) - What training reveals about neural network complexity [80.87515604428346]
この研究は、ディープニューラルネットワーク(NN)が学習している関数の複雑さは、トレーニング中にその重みがどれほど速く変化するかによって推定できるという仮説を探求する。
我々の結果は、優れた訓練行動が良い一般化への有用なバイアスとなるという仮説を支持している。
論文 参考訳(メタデータ) (2021-06-08T08:58:00Z) - Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文 参考訳(メタデータ) (2021-02-20T23:26:58Z) - Predicting Training Time Without Training [120.92623395389255]
我々は、事前訓練された深層ネットワークが損失関数の所定の値に収束する必要がある最適化ステップの数を予測する問題に取り組む。
我々は、微調整中の深部ネットワークのトレーニングダイナミクスが線形化モデルによってよく近似されているという事実を活用する。
トレーニングをする必要なく、特定の損失にモデルを微調整するのに要する時間を予測できます。
論文 参考訳(メタデータ) (2020-08-28T04:29:54Z) - Side-Tuning: A Baseline for Network Adaptation via Additive Side
Networks [95.51368472949308]
適応は、トレーニングデータが少ない場合や、ネットワークのプリエンプションをエンコードしたい場合などに有効である。
本稿では,サイドチューニングという簡単な方法を提案する。
論文 参考訳(メタデータ) (2019-12-31T18:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。