Fugu-MT 論文翻訳(概要): Understanding the Gains from Repeated Self-Distillation

論文の概要: Understanding the Gains from Repeated Self-Distillation

arxiv url: http://arxiv.org/abs/2407.04600v1
Date: Fri, 5 Jul 2024 15:48:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-08 12:51:25.169816
Title: Understanding the Gains from Repeated Self-Distillation
Title（参考訳）: 繰り返し自己蒸留による利得の理解
Authors: Divyansh Pareek, Simon S. Du, Sewoong Oh,
Abstract要約: 自己蒸留は、学生モデルが教師モデルと同じアーキテクチャを持つ知識蒸留の一種である。多段階の自己蒸留によって達成される余剰リスクは、単段階の自己蒸留において著しく改善できることを示す。 UCIレポジトリの回帰タスクに関する実証的な結果は、学習モデルのリスク(MSE)を最大47%削減することを示している。
参考スコア（独自算出の注目度）: 65.53673000292079
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Self-Distillation is a special type of knowledge distillation where the student model has the same architecture as the teacher model. Despite using the same architecture and the same training data, self-distillation has been empirically observed to improve performance, especially when applied repeatedly. For such a process, there is a fundamental question of interest: How much gain is possible by applying multiple steps of self-distillation? To investigate this relative gain, we propose studying the simple but canonical task of linear regression. Our analysis shows that the excess risk achieved by multi-step self-distillation can significantly improve upon a single step of self-distillation, reducing the excess risk by a factor as large as $d$, where $d$ is the input dimension. Empirical results on regression tasks from the UCI repository show a reduction in the learnt model's risk (MSE) by up to 47%.
Abstract（参考訳）: 自己蒸留は、学生モデルが教師モデルと同じアーキテクチャを持つ特別なタイプの知識蒸留である。同じアーキテクチャと同じトレーニングデータを使っているにもかかわらず、特に繰り返し適用された場合、自己蒸留はパフォーマンスを向上させるために経験的に観察されている。このようなプロセスには、基本的な関心事がある: 自己蒸留の複数のステップを適用することで、どの程度の利益が得られるのか? この相対的な利得を調べるために,線形回帰の単純だが正準的な課題について検討する。分析の結果,多段階の自己蒸留で達成される余剰リスクは,単段階の自己蒸留で著しく改善し,入力次元が$d$である場合,最大$d$の要因で余剰リスクを低減できることがわかった。 UCIレポジトリの回帰タスクに関する実証的な結果は、学習モデルのリスク(MSE)を最大47%削減することを示している。

関連論文リスト

Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。 UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文参考訳（メタデータ） (2025-04-19T14:08:56Z)
Towards Training One-Step Diffusion Models Without Distillation [72.80423908458772]
この蒸留工程を使わずに, 一段階生成モデルを直接訓練できることが示される。本稿では, スコア推定に頼ることなく, 競争力のある結果が得られる蒸留法群を提案する。
論文参考訳（メタデータ） (2025-02-11T23:02:14Z)
Efficient Knowledge Injection in LLMs via Self-Distillation [50.24554628642021]
本稿では, 急速蒸留を利用して, 自由形式文書から新たな事実知識を内包する手法を提案する。急速蒸留は標準的な微調整よりも優れており,RAGを超越することさえ可能であることを示す。
論文参考訳（メタデータ） (2024-12-19T15:44:01Z)
Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。シーケンスレベルでは、シーケンス修正と再生戦略を提案する。トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文参考訳（メタデータ） (2024-07-14T03:51:49Z)
One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。 GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文参考訳（メタデータ） (2023-12-12T07:28:40Z)
DistillCSE: Distilled Contrastive Learning for Sentence Embeddings [32.6620719893457]
本稿では,知識蒸留による自己学習パラダイムの下で,コントラスト学習を行うDistillCSEフレームワークを提案する。 DistillCSEの潜在的な利点は、自給自足機能である: ベースモデルを使用してさらなる監視信号を提供することで、知識蒸留を通じてより強力なモデルを学ぶことができる。本稿では, 暗黙の正規化としてのグループ-Pシャッフル戦略と, 複数の教師コンポーネントのロジット平均化という, 知識蒸留の単純かつ効果的な方法を提案する。
論文参考訳（メタデータ） (2023-10-20T13:45:59Z)
Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文参考訳（メタデータ） (2023-05-27T21:25:55Z)
Self-Knowledge Distillation via Dropout [0.7883397954991659]
ドロップアウト(SD-Dropout)を用いた簡便かつ効果的な自己知識蒸留法を提案する。我々の方法は、追加のトレーニング可能なモジュールを必要とせず、データに依存しず、単純な操作しか必要としない。
論文参考訳（メタデータ） (2022-08-11T05:08:55Z)
Revisiting Self-Distillation [50.29938732233947]
自己蒸留とは、大きなモデル(教師)からよりコンパクトなモデル(生徒)に「知識」を移す手順である。いくつかの作品では、自給自足の生徒が保持されたデータで教師より優れているという逸話がある。我々は、自己蒸留がより平坦なミニマムをもたらすことを示すための広範な実験を行い、その結果、より良い一般化をもたらす。
論文参考訳（メタデータ） (2022-06-17T00:18:51Z)
SimReg: Regression as a Simple Yet Effective Tool for Self-supervised Knowledge Distillation [14.739041141948032]
特徴回帰は、大きなニューラルネットワークモデルをより小さなものに蒸留する簡単な方法である。ネットワークアーキテクチャに簡単な変更を加えると、レグレッションは知識蒸留のためのより複雑な最先端のアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2022-01-13T18:41:46Z)
Even your Teacher Needs Guidance: Ground-Truth Targets Dampen Regularization Imposed by Self-Distillation [0.0]
ネットワークアーキテクチャが同一である自己蒸留は、一般化精度を向上させるために観測されている。我々は, 逐次ステップがモデル出力と接地目標の両方を組み込む, カーネル回帰設定における自己蒸留の反復的変種を考える。自己蒸留により得られるそのような関数は、初期フィットの関数として直接計算でき、無限蒸留ステップは増幅正規化により元のものと同じ最適化問題をもたらす。
論文参考訳（メタデータ） (2021-02-25T18:56:09Z)
Self-Distillation Amplifies Regularization in Hilbert Space [48.44660047970882]
自己蒸留は、あるアーキテクチャから別のアーキテクチャへ知識を移す方法である。この研究は、自己蒸留に関する最初の理論的分析を提供する。自己蒸留は、解を表すのに使える基底関数の数を漸進的に制限することで正則化を変化させることを示す。
論文参考訳（メタデータ） (2020-02-13T18:56:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。