Fugu-MT 論文翻訳(概要): Even your Teacher Needs Guidance: Ground-Truth Targets Dampen Regularization Imposed by Self-Distillation

論文の概要: Even your Teacher Needs Guidance: Ground-Truth Targets Dampen Regularization Imposed by Self-Distillation

arxiv url: http://arxiv.org/abs/2102.13088v1
Date: Thu, 25 Feb 2021 18:56:09 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-26 13:58:46.250328
Title: Even your Teacher Needs Guidance: Ground-Truth Targets Dampen Regularization Imposed by Self-Distillation
Title（参考訳）: 教師の指導も必要:自己蒸留によるダンプ正規化を目標に
Authors: Kenneth Borup, Lars N. Andersen
Abstract要約: ネットワークアーキテクチャが同一である自己蒸留は、一般化精度を向上させるために観測されている。我々は, 逐次ステップがモデル出力と接地目標の両方を組み込む, カーネル回帰設定における自己蒸留の反復的変種を考える。自己蒸留により得られるそのような関数は、初期フィットの関数として直接計算でき、無限蒸留ステップは増幅正規化により元のものと同じ最適化問題をもたらす。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Knowledge distillation is classically a procedure where a neural network is trained on the output of another network along with the original targets in order to transfer knowledge between the architectures. The special case of self-distillation, where the network architectures are identical, has been observed to improve generalization accuracy. In this paper, we consider an iterative variant of self-distillation in a kernel regression setting, in which successive steps incorporate both model outputs and the ground-truth targets. This allows us to provide the first theoretical results on the importance of using the weighted ground-truth targets in self-distillation. Our focus is on fitting nonlinear functions to training data with a weighted mean square error objective function suitable for distillation, subject to $\ell_2$ regularization of the model parameters. We show that any such function obtained with self-distillation can be calculated directly as a function of the initial fit, and that infinite distillation steps yields the same optimization problem as the original with amplified regularization. Finally, we examine empirically, both in a regression setting and with ResNet networks, how the choice of weighting parameter influences the generalization performance after self-distillation.
Abstract（参考訳）: 知識蒸留は古典的には、ニューラルネットワークがアーキテクチャ間で知識を伝達するために、他のネットワークの出力と元のターゲットと共に訓練される手順である。ネットワークアーキテクチャが同一である自己蒸留の特別な例は、一般化精度を向上させるために観察されている。本稿では,逐次ステップがモデル出力と接地目標の両方を組み込むカーネル回帰設定における自己蒸留の反復的変種について考察する。これにより、自己蒸留における重み付けされた接地目標の利用の重要性に関する最初の理論的結果が得られる。私たちの焦点は、モデルパラメータの$\ell_2$正規化に応じて、蒸留に適した重み付き平均二乗誤差客観的関数でデータに非線形関数を適合させることです。自己蒸留により得られるそのような関数は、初期フィットの関数として直接計算でき、無限蒸留ステップは増幅正規化により元のものと同じ最適化問題をもたらす。最後に,重み付けパラメータの選択が自己蒸留後の一般化性能にどのように影響するかを,回帰設定とresnetネットワークを用いて実験的に検討した。

関連論文リスト

Teaching the Teacher: Improving Neural Network Distillability for Symbolic Regression via Jacobian Regularization [17.033055327465238]
複雑なニューラルネットワークを単純で可読な記号式に拡張することは、信頼できる、解釈可能なAIへの有望な道のりだ。この課題に対処するための新しい訓練パラダイムを提案する。事前学習されたネットワークを受動的に蒸留する代わりに, 教師のネットワークに, 正確であるだけでなく, 自然にスムーズで, 蒸留に適する機能を学ぶよう積極的に促すtextbfJacobian-based regularizerを導入する。
論文参考訳（メタデータ） (2025-07-30T15:32:18Z)
Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文参考訳（メタデータ） (2025-05-21T07:16:44Z)
Self-rewarding correction for mathematical reasoning [19.480508580498103]
我々は,大規模言語モデル(LLM)の自己回帰的推論について研究する。 LLMは、ステップバイステップの推論を同時に生成し、外部からのフィードバックを伴わない推論時間における出力の正しさを評価する。本稿では,自己生成データのみを用いて自己回帰推論モデルを構築するための2段階のアルゴリズムフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-26T23:01:16Z)
Generative Dataset Distillation Based on Self-knowledge Distillation [49.20086587208214]
本稿では,予測ロジットの整列精度を向上させる新しい生成データセット蒸留法を提案する。本手法は, 合成データと原データとのより正確な分布マッチングを実現するために, 自己知識蒸留を統合したものである。提案手法は, 既存の最先端手法より優れており, 蒸留性能が良好である。
論文参考訳（メタデータ） (2025-01-08T00:43:31Z)
LoRA-Ensemble: Efficient Uncertainty Modelling for Self-attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率の高いディープアンサンブル手法であるLoRA-Ensembleを紹介する。全メンバー間で重みを共有できる1つの事前学習型自己注意ネットワークを利用することで、注意投影のために、メンバー固有の低ランク行列を訓練する。提案手法は明示的なアンサンブルよりも優れたキャリブレーションを示し,様々な予測タスクやデータセットに対して類似あるいは良好な精度を実現する。
論文参考訳（メタデータ） (2024-05-23T11:10:32Z)
Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文参考訳（メタデータ） (2023-10-10T10:48:52Z)
Understanding, Predicting and Better Resolving Q-Value Divergence in Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文参考訳（メタデータ） (2023-10-06T17:57:44Z)
End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文参考訳（メタデータ） (2023-05-25T10:58:46Z)
Entropy Induced Pruning Framework for Convolutional Neural Networks [30.89967076857665]
本稿では,各フィルタの重要性を測定するために,平均フィルタ情報エントロピー (AFIE) という指標を提案する。提案手法は,元のモデルが十分に訓練されているかどうかに関わらず,各フィルタの安定性を評価できる。
論文参考訳（メタデータ） (2022-08-13T14:35:08Z)
Self-Knowledge Distillation via Dropout [0.7883397954991659]
ドロップアウト(SD-Dropout)を用いた簡便かつ効果的な自己知識蒸留法を提案する。我々の方法は、追加のトレーニング可能なモジュールを必要とせず、データに依存しず、単純な操作しか必要としない。
論文参考訳（メタデータ） (2022-08-11T05:08:55Z)
Deep Neural Compression Via Concurrent Pruning and Self-Distillation [7.448510589632587]
Pruningは、元のネットワークに近いパフォーマンスを維持しながら、パラメータの数を減らすことを目的としている。本研究は, 新規なエフェレート蒸留法に基づくプルーニング戦略を提案する。自己蒸留プルーニングの相互相関目的がスパース解を暗黙的に促進することを示す。
論文参考訳（メタデータ） (2021-09-30T11:08:30Z)
Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文参考訳（メタデータ） (2021-06-04T18:03:31Z)
Self-Knowledge Distillation with Progressive Refinement of Targets [1.1470070927586016]
プログレッシブ自己知識蒸留(PS-KD)という,単純で効果的な正則化法を提案する。 PS-KDは、訓練中にハードターゲットを柔らかくするために、モデルの知識を徐々に蒸留する。分析の結果,PS-KDは,試料の分類の難しさに応じて勾配を再スケーリングすることで,硬い試料採掘の効果を示すことがわかった。
論文参考訳（メタデータ） (2020-06-22T04:06:36Z)
Self-Distillation Amplifies Regularization in Hilbert Space [48.44660047970882]
自己蒸留は、あるアーキテクチャから別のアーキテクチャへ知識を移す方法である。この研究は、自己蒸留に関する最初の理論的分析を提供する。自己蒸留は、解を表すのに使える基底関数の数を漸進的に制限することで正則化を変化させることを示す。
論文参考訳（メタデータ） (2020-02-13T18:56:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。