論文の概要: Understanding the Distillation Process from Deep Generative Models to
Tractable Probabilistic Circuits
- arxiv url: http://arxiv.org/abs/2302.08086v1
- Date: Thu, 16 Feb 2023 04:52:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-17 14:51:50.322185
- Title: Understanding the Distillation Process from Deep Generative Models to
Tractable Probabilistic Circuits
- Title(参考訳): 深部生成モデルからトラクタブル確率回路への蒸留過程の理解
- Authors: Xuejie Liu, Anji Liu, Guy Van den Broeck, Yitao Liang
- Abstract要約: 我々は,PCの性能が教師モデルを上回ることを理論的,実証的に発見する。
特にImageNet32では、PCは4.06ビット/次元を実現しており、これは変分拡散モデルのわずか0.34である。
- 参考スコア(独自算出の注目度): 30.663322946413285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Probabilistic Circuits (PCs) are a general and unified computational
framework for tractable probabilistic models that support efficient computation
of various inference tasks (e.g., computing marginal probabilities). Towards
enabling such reasoning capabilities in complex real-world tasks, Liu et al.
(2022) propose to distill knowledge (through latent variable assignments) from
less tractable but more expressive deep generative models. However, it is still
unclear what factors make this distillation work well. In this paper, we
theoretically and empirically discover that the performance of a PC can exceed
that of its teacher model. Therefore, instead of performing distillation from
the most expressive deep generative model, we study what properties the teacher
model and the PC should have in order to achieve good distillation performance.
This leads to a generic algorithmic improvement as well as other
data-type-specific ones over the existing latent variable distillation
pipeline. Empirically, we outperform SoTA TPMs by a large margin on challenging
image modeling benchmarks. In particular, on ImageNet32, PCs achieve 4.06
bits-per-dimension, which is only 0.34 behind variational diffusion models
(Kingma et al., 2021).
- Abstract(参考訳): 確率回路(英: Probabilistic Circuits、PC)は、様々な推論タスク(例えば計算限界確率)の効率的な計算をサポートする、トラクタブル確率モデルのための一般化された計算フレームワークである。
複雑な実世界のタスクにおいてそのような推論能力を実現するために、Liu et al. (2022) は、(潜在変数の割り当てを通じて)少ないがより表現力のある深い生成モデルから知識を抽出することを提案した。
しかし、この蒸留をうまく機能させる要因はまだ不明である。
本稿では,PCの性能が教師モデルを上回ることを理論的かつ実証的に発見する。
そこで,本研究では,最も表現力に富んだ深層生成モデルから蒸留を行う代わりに,教師モデルとPCがどの特性を持つべきかを検討した。
これは、既存の潜在変数蒸留パイプラインに対して、汎用的なアルゴリズム改善と、他のデータタイプ固有の改善につながります。
経験的に、我々はsoma tpmを、挑戦的な画像モデリングベンチマークに対して大きなマージンで上回っている。
特にImageNet32では、PCは4.06ビット/次元を実現しており、これは変分拡散モデルのわずか0.34である(Kingma et al., 2021)。
関連論文リスト
- One-Step Diffusion Distillation through Score Implicit Matching [74.91234358410281]
本稿では,Score Implicit Matching (SIM) を用いて,事前学習した拡散モデルを単一ステップジェネレータモデルに蒸留する手法を提案する。
SIMはワンステップジェネレータに対して強い経験的性能を示す。
リードトランスに基づく拡散モデルにSIMを適用することにより,テキスト・ツー・イメージ生成のための単一ステップ生成器を蒸留する。
論文 参考訳(メタデータ) (2024-10-22T08:17:20Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Progressive Volume Distillation with Active Learning for Efficient NeRF Architecture Conversion [27.389511043400635]
ニューラルフィールド(NeRF)は3次元シーンの実用的で汎用的な表現として広く採用されている。
本稿では, 系統的蒸留法として, アクティブラーニングを用いたプログレッシブボリューム蒸留法 (PVD-AL) を提案する。
PVD-ALは、各構造を2つの部分に分解し、より浅い体積表現からより深い体積表現への蒸留を徐々に行う。
論文 参考訳(メタデータ) (2023-04-08T13:59:18Z) - Scaling Up Probabilistic Circuits by Latent Variable Distillation [29.83240905570575]
PCにおけるパラメータの数が増加するにつれて、その性能はすぐに低下する。
我々は、PCの潜伏変数に対する余分な監督を提供するために、あまり扱いにくいが表現力に富んだ深層生成モデルを活用している。
特に、画像モデリングのベンチマークでは、PCは広く使われている深層生成モデルと競合する性能を達成している。
論文 参考訳(メタデータ) (2022-10-10T02:07:32Z) - Functional Ensemble Distillation [18.34081591772928]
本研究では,効率的なモデルを用いて,アンサンブルの予測を最もよく蒸留する方法を検討する。
混合増量方式による簡易増量方式による蒸留モデルの学習により, 性能が著しく向上することが判明した。
論文 参考訳(メタデータ) (2022-06-05T14:07:17Z) - Structured Pruning Learns Compact and Accurate Models [28.54826400747667]
タスク固有の構造化プルーニング法CoFi(粗粒および細粒のプルーニング)を提案する。
CoFiは高度に並列化可能なワークを提供し、蒸留方法を精度とレイテンシの両方で一致させる。
GLUEおよびSQuADデータセットを用いた実験により、CoFiは10倍以上のスピードアップと小さな精度低下でモデルを生成することが示された。
論文 参考訳(メタデータ) (2022-04-01T13:09:56Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z) - Beyond Self-Supervision: A Simple Yet Effective Network Distillation
Alternative to Improve Backbones [40.33419553042038]
既製のトレーニング済み大型モデルからナレッジ蒸留による既存ベースラインネットワークの改善を提案します。
本ソリューションは,教師モデルと整合した学生モデルの予測のみを駆動することにより,蒸留を行う。
例えば、MobileNetV3-large と ResNet50-D の ImageNet-1k 検証セットにおけるトップ-1 の精度は、大幅に向上できる。
論文 参考訳(メタデータ) (2021-03-10T09:32:44Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。