Fugu-MT 論文翻訳(概要): Towards a theory of model distillation

論文の概要: Towards a theory of model distillation

arxiv url: http://arxiv.org/abs/2403.09053v1
Date: Thu, 14 Mar 2024 02:42:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-15 21:57:10.206018
Title: Towards a theory of model distillation
Title（参考訳）: モデル蒸留の理論に向けて
Authors: Enric Boix-Adsera,
Abstract要約: 蒸留は、複雑な機械学習モデルを、オリジナルを近似するより単純なモデルに置き換える作業である。ニューラルネットワークを簡潔で明確な決定木表現に効率的に抽出する方法を示す。我々は, 蒸留がスクラッチから学習するよりもはるかに安価であることを証明するとともに, その複雑さを特徴づけることを進める。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Distillation is the task of replacing a complicated machine learning model with a simpler model that approximates the original [BCNM06,HVD15]. Despite many practical applications, basic questions about the extent to which models can be distilled, and the runtime and amount of data needed to distill, remain largely open. To study these questions, we initiate a general theory of distillation, defining PAC-distillation in an analogous way to PAC-learning [Val84]. As applications of this theory: (1) we propose new algorithms to extract the knowledge stored in the trained weights of neural networks -- we show how to efficiently distill neural networks into succinct, explicit decision tree representations when possible by using the ``linear representation hypothesis''; and (2) we prove that distillation can be much cheaper than learning from scratch, and make progress on characterizing its complexity.
Abstract（参考訳）: 蒸留は、複雑な機械学習モデルを元の[BCNM06,HVD15]を近似する単純なモデルに置き換える作業である。多くの実用的応用にもかかわらず、モデルが蒸留できる範囲と、蒸留に必要な実行時間とデータ量に関する基本的な問題は、ほとんど未解決のままである。これらの問題を研究するために、PAC蒸留をPAC学習に類似した方法で定義する蒸留の一般理論を開始する[Val84]。この理論の応用として、(1)ニューラルネットワークの訓練された重みに蓄積された知識を抽出する新しいアルゴリズムを提案し、(2)ニューラルネットワークを「線形表現仮説」を用いて可能な限り簡潔で明確な決定木表現に効率的に抽出する方法を示し、(2)蒸留がスクラッチから学習するよりもはるかに安価であることを証明し、その複雑さを特徴付ける。

関連論文リスト

Towards Distillation-Resistant Large Language Models: An Information-Theoretic Perspective [52.25797439810419]
既存の防衛はテキストベースの蒸留のみに重点を置いており、重要なロジットベースの蒸留はほとんど探索されていない。我々は,教師のロジットと接地木ラベルに条件付けされた入力クエリ間の条件付き相互情報(CMI)を用いて,教師出力の蒸留関連情報を特徴付ける。我々は,CMIにインスパイアされた抗蒸留目標を導出し,この変換を最適化し,出力ユーティリティを保ちながら蒸留関連情報を効果的に除去する。
論文参考訳（メタデータ） (2026-02-03T11:16:59Z)
Distilling Lightweight Domain Experts from Large ML Models by Identifying Relevant Subspaces [17.627125013326175]
「SubDistill」は、各層における教師モデルの関連成分のみを蒸留する数値特性を改良した新しい蒸留アルゴリズムである。ベンチマーク評価は, 蒸留した学生モデルが元の教師モデルの判断構造とより密に一致していることを示す説明可能なAI分析によって補完される。
論文参考訳（メタデータ） (2026-01-09T16:28:55Z)
Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。 UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文参考訳（メタデータ） (2025-04-19T14:08:56Z)
Towards Training One-Step Diffusion Models Without Distillation [72.80423908458772]
この蒸留工程を使わずに, 一段階生成モデルを直接訓練できることが示される。本稿では, スコア推定に頼ることなく, 競争力のある結果が得られる蒸留法群を提案する。
論文参考訳（メタデータ） (2025-02-11T23:02:14Z)
Efficient Knowledge Injection in LLMs via Self-Distillation [50.24554628642021]
本稿では, 急速蒸留を利用して, 自由形式文書から新たな事実知識を内包する手法を提案する。急速蒸留は標準的な微調整よりも優れており,RAGを超越することさえ可能であることを示す。
論文参考訳（メタデータ） (2024-12-19T15:44:01Z)
Exploring the potential of prototype-based soft-labels data distillation for imbalanced data classification [0.0]
主な目的は、分類精度の観点からプロトタイプベースの軟質ラベル蒸留の性能を高めることである。実験的研究は、この方法でデータを蒸留する能力だけでなく、増量法として機能する機会も追求している。
論文参考訳（メタデータ） (2024-03-25T19:15:19Z)
Online Distillation for Pseudo-Relevance Feedback [16.523925354318983]
ニューラルリグレードの結果から,特定のクエリのモデルを効果的に抽出できるかどうかを検討する。オンラインで蒸留された語彙モデルは、ニューラルネットワークの再ランク付けを合理的に再現できることがわかった。さらに重要なのは、これらのモデルをインデックス上で効率的に実行するクエリとして使用することができることだ。
論文参考訳（メタデータ） (2023-06-16T07:26:33Z)
BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-06-08T20:30:55Z)
Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文参考訳（メタデータ） (2023-05-27T21:25:55Z)
HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文参考訳（メタデータ） (2023-02-19T17:37:24Z)
DETRDistill: A Universal Knowledge Distillation Framework for DETR-families [11.9748352746424]
トランスフォーマーベースの検出器(DETR)は、訓練パラダイムの疎さと後処理操作の除去により、大きな注目を集めている。知識蒸留(KD)は、普遍的な教師学習フレームワークを構築することで、巨大なモデルを圧縮するために用いられる。
論文参考訳（メタデータ） (2022-11-17T13:35:11Z)
Referee: Reference-Free Sentence Summarization with Sharper Controllability through Symbolic Knowledge Distillation [72.70058049274664]
文献要約のための新しい枠組みであるRefereeについて紹介する(つまり、監督のために金の要約を必要としない)。我々の研究は、シンボリック知識蒸留の概念的枠組みを通じて、参照不要で制御された文要約が実現可能であることを示す最初のものである。
論文参考訳（メタデータ） (2022-10-25T07:07:54Z)
Self-Knowledge Distillation via Dropout [0.7883397954991659]
ドロップアウト(SD-Dropout)を用いた簡便かつ効果的な自己知識蒸留法を提案する。我々の方法は、追加のトレーニング可能なモジュールを必要とせず、データに依存しず、単純な操作しか必要としない。
論文参考訳（メタデータ） (2022-08-11T05:08:55Z)
ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self On-the-fly Distillation for Dense Passage Retrieval [54.54667085792404]
両エンコーダのクロスアーキテクチャ蒸留を著しく向上させる新しい蒸留法を提案する。本手法は,バニラ二重エンコーダへの遅延相互作用(ColBERT)を効果的に蒸留できる自己オンザフライ蒸留法を導入し,また,クロスエンコーダの教師による性能向上のためにカスケード蒸留プロセスを導入している。
論文参考訳（メタデータ） (2022-05-18T18:05:13Z)
Towards Understanding Ensemble, Knowledge Distillation and Self-Distillation in Deep Learning [93.18238573921629]
本研究では,学習モデルのアンサンブルがテスト精度を向上させる方法と,アンサンブルの優れた性能を単一モデルに蒸留する方法について検討する。深層学習におけるアンサンブル/知識蒸留は,従来の学習理論とは大きく異なる。また, 自己蒸留は, アンサンブルと知識蒸留を暗黙的に組み合わせて, 試験精度を向上させることができることを示した。
論文参考訳（メタデータ） (2020-12-17T18:34:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。