論文の概要: Structural Knowledge Distillation: Tractably Distilling Information for
Structured Predictor
- arxiv url: http://arxiv.org/abs/2010.05010v4
- Date: Wed, 2 Jun 2021 02:31:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-10-08 22:19:06.905466
- Title: Structural Knowledge Distillation: Tractably Distilling Information for
Structured Predictor
- Title(参考訳): 構造的知識蒸留 : 構造的予測器の情報抽出
- Authors: Xinyu Wang, Yong Jiang, Zhaohui Yan, Zixia Jia, Nguyen Bach, Tao Wang,
Zhongqiang Huang, Fei Huang, Kewei Tu
- Abstract要約: 知識蒸留の目的的機能は、典型的には教師と学生の出力分布の相互エントロピーである。
構造化予測問題の場合、出力空間は指数関数的である。
本稿では, 構造的知識の蒸留における, シーケンスラベリングと依存性解析モデル間のトラクタビリティと実証的有効性を示す。
- 参考スコア(独自算出の注目度): 70.71045044998043
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Knowledge distillation is a critical technique to transfer knowledge between
models, typically from a large model (the teacher) to a more fine-grained one
(the student). The objective function of knowledge distillation is typically
the cross-entropy between the teacher and the student's output distributions.
However, for structured prediction problems, the output space is exponential in
size; therefore, the cross-entropy objective becomes intractable to compute and
optimize directly. In this paper, we derive a factorized form of the knowledge
distillation objective for structured prediction, which is tractable for many
typical choices of the teacher and student models. In particular, we show the
tractability and empirical effectiveness of structural knowledge distillation
between sequence labeling and dependency parsing models under four different
scenarios: 1) the teacher and student share the same factorization form of the
output structure scoring function; 2) the student factorization produces more
fine-grained substructures than the teacher factorization; 3) the teacher
factorization produces more fine-grained substructures than the student
factorization; 4) the factorization forms from the teacher and the student are
incompatible.
- Abstract(参考訳): 知識蒸留は、大きなモデル(教師)からよりきめ細かいモデル(学生)へ、モデル間で知識を伝達する重要な技術である。
知識蒸留の目的的機能は、典型的には教師と学生の出力分布の相互エントロピーである。
しかし、構造的予測問題の場合、出力空間は指数関数的な大きさであるため、クロスエントロピー目的は直接計算し最適化することが困難になる。
本稿では,教師モデルや学生モデルの典型的な選択に対して,構造化予測のための知識蒸留目標の因子化形式を導出する。
特に,4つのシナリオにおけるシーケンスラベリングと依存性解析モデル間の構造知識蒸留のトラクタビリティと実証的有効性を示す。
1) 教師と学生は,出力構造スコアリング機能の同じ因子化形式を共有している。
2) 生徒の因子化は,教師の因子化よりもきめ細かい下位構造を生成する。
3) 教師の因子化は,学生の因子化よりもきめ細かい下位構造を生成する。
4) 教師と生徒の因子化形式は相容れない。
関連論文リスト
- Group Relative Knowledge Distillation: Learning from Teacher's Relational Inductive Bias [5.434571018755813]
グループ相対的知識蒸留(GRKD)は、クラス間の相対的なランク付けを学習することで教師の知識を蒸留する新しいフレームワークである。
分類ベンチマークの実験では、GRKDは既存の手法よりも優れた一般化を実現している。
論文 参考訳(メタデータ) (2025-04-29T07:23:22Z) - Empirical Evaluation of Knowledge Distillation from Transformers to Subquadratic Language Models [3.287942619833188]
我々は,トランスフォーマーの教師から9つのサブクワッドラティックな学生建築への知識蒸留の伝達可能性について,体系的に評価した。
本研究の目的は,教師の学習した表現にどのサブクワッドラティックモデルが最適か,また,異なる構造的制約が蒸留プロセスにどのように影響するかを判断することである。
論文 参考訳(メタデータ) (2025-04-19T17:49:52Z) - UNDO: Understanding Distillation as Optimization [9.100811514331498]
UNDO: Understanding Distillation as Optimization frameworkを紹介します。
各イテレーションは、生徒の学習不足を直接対象とし、教師に調整された強化された合理性を提供する動機を与える。
様々な数学的・常識的推論タスクに関する実証的な評価は、我々の反復蒸留法UNDOが標準の1段階蒸留法を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2025-04-03T12:18:51Z) - Supervision Complexity and its Role in Knowledge Distillation [65.07910515406209]
蒸留した学生の一般化行動について検討する。
この枠組みは、教師の精度、教師の予測に対する生徒の差、教師の予測の複雑さの間の微妙な相互作用を強調している。
オンライン蒸留の有効性を実証し,様々な画像分類ベンチマークとモデルアーキテクチャに関する理論的知見を検証した。
論文 参考訳(メタデータ) (2023-01-28T16:34:47Z) - Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。
知識蒸留は教師から知識を抽出し、対象モデルと統合する。
教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文 参考訳(メタデータ) (2022-05-04T06:49:47Z) - Systematic Evaluation of Causal Discovery in Visual Model Based
Reinforcement Learning [76.00395335702572]
AIと因果関係の中心的な目標は、抽象表現と因果構造を共同で発見することである。
因果誘導を研究するための既存の環境は、複雑なタスク固有の因果グラフを持つため、この目的には適していない。
本研究の目的は,高次変数の学習表現と因果構造の研究を促進することである。
論文 参考訳(メタデータ) (2021-07-02T05:44:56Z) - Towards Understanding Knowledge Distillation [37.71779364624616]
知識蒸留は、分類器間の知識伝達において、経験的に非常に成功した技術である。
この現象の十分な理論的説明はない。
本稿では, 線形および深部線形分類器の特別事例を考察することにより, 蒸留の作業機構に関する最初の知見を提供する。
論文 参考訳(メタデータ) (2021-05-27T12:45:08Z) - Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。
二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。
実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文 参考訳(メタデータ) (2020-12-15T23:43:28Z) - Causal Structure Learning: a Bayesian approach based on random graphs [0.0]
我々は、因果関係の存在に関する不確実性をモデル化するために、グラフの表現可能性を利用する。
我々は、因果的環境との相互作用と学習を通して因果的構造を捉えるために、ベイズ的視点を採用する。
論文 参考訳(メタデータ) (2020-10-13T04:13:06Z) - Differentiable Feature Aggregation Search for Knowledge Distillation [47.94874193183427]
単教師蒸留フレームワークにおける多教師蒸留を模倣する特徴集約について紹介する。
DFAは、ニューラルネットワーク探索においてDARTSによって動機付けられた2段階の微分可能特徴集合探索法である。
実験の結果,DFAはCIFAR-100およびCINIC-10データセットの既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-02T15:42:29Z) - Understanding and Improving Knowledge Distillation [13.872105118381938]
知識蒸留(KD)はモデルに依存しない手法であり、固定容量の予算を持ちながらモデル品質を改善する。
本稿では,教師の知識を3つの階層レベルに分類し,その知識蒸留への影響について検討する。
論文 参考訳(メタデータ) (2020-02-10T04:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。