論文の概要: Tiny models from tiny data: Textual and null-text inversion for few-shot distillation
- arxiv url: http://arxiv.org/abs/2406.03146v1
- Date: Wed, 5 Jun 2024 11:01:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 18:50:02.227818
- Title: Tiny models from tiny data: Textual and null-text inversion for few-shot distillation
- Title(参考訳): 微小データからのTinyモデル:数発蒸留におけるテキストとヌルテキストの逆変換
- Authors: Erik Landolsi, Fredrik Kahl,
- Abstract要約: ほとんどショット画像分類では、ごく少数のトレーニング例を使って画像の分類を行う。
近年の視覚基礎モデルでは、数発の転送能力は優れているが、推論では大きくて遅い。
本稿では,テキスト逆変換の多様性とNull-text逆変換の特異性を組み合わせた新しい拡散モデル逆変換法(TINT)を提案する。
- 参考スコア(独自算出の注目度): 11.80626524879555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot image classification involves classifying images using very few training examples. Recent vision foundation models show excellent few-shot transfer abilities, but are large and slow at inference. Using knowledge distillation, the capabilities of high-performing but slow models can be transferred to tiny, efficient models. However, common distillation methods require a large set of unlabeled data, which is not available in the few-shot setting. To overcome this lack of data, there has been a recent interest in using synthetic data. We expand on this work by presenting a novel diffusion model inversion technique (TINT) combining the diversity of textual inversion with the specificity of null-text inversion. Using this method in a few-shot distillation pipeline leads to state-of-the-art accuracy among small student models on popular benchmarks, while being significantly faster than prior work. This allows us to push even tiny models to high accuracy using only a tiny application-specific dataset, albeit relying on extra data for pre-training. Popular few-shot benchmarks involve evaluation over a large number of episodes, which is computationally cumbersome for methods involving synthetic data generation. Therefore, we also present a theoretical analysis on how the variance of the accuracy estimator depends on the number of episodes and query examples, and use these results to lower the computational effort required for method evaluation. In addition, to further motivate the use of generative models in few-shot distillation, we demonstrate that our method performs better compared to training on real data mined from the dataset used to train the diffusion model. Source code will be made available at https://github.com/pixwse/tiny2.
- Abstract(参考訳): ほとんどショット画像分類では、ごく少数のトレーニング例を使って画像の分類を行う。
近年の視覚基礎モデルでは、数発の転送能力は優れているが、推論では大きくて遅い。
知識蒸留を用いて、高性能だが遅いモデルの能力は、小型で効率的なモデルに移すことができる。
しかし、一般的な蒸留法ではラベルのない大量のデータを必要とするが、これは数ショットの環境では利用できない。
このデータ不足を克服するために、最近は合成データの使用に関心がある。
本稿では,テキスト逆変換の多様性とNull-text逆変換の特異性を組み合わせた新しい拡散モデル逆変換法(TINT)を提案する。
この手法を数発の蒸留パイプラインで使用すると、一般的なベンチマーク上の小さな学生モデルの間で最先端の精度が得られるが、前よりもかなり高速である。
これにより、事前トレーニングに余分なデータに依存するにも関わらず、小さなアプリケーション固有のデータセットのみを使用して、さらに小さなモデルを高精度にプッシュすることが可能になります。
人気のある数ショットのベンチマークでは、多数のエピソードに対して評価が行われており、合成データ生成を含む手法では計算に煩雑である。
そこで本研究では,精度推定器のばらつきがエピソード数やクエリの例にどのように依存するかを理論的に分析し,これらの結果を用いて,手法評価に必要な計算労力を低減させる。
さらに, 数発蒸留における生成モデルの利用をさらに促進するために, 拡散モデルのトレーニングに使用するデータセットから抽出した実データに対して, 実データによるトレーニングよりも優れた性能を示すことを示す。
ソースコードはhttps://github.com/pixwse/tiny2.comから入手できる。
関連論文リスト
- Exploring the potential of prototype-based soft-labels data distillation for imbalanced data classification [0.0]
主な目的は、分類精度の観点からプロトタイプベースの軟質ラベル蒸留の性能を高めることである。
実験的研究は、この方法でデータを蒸留する能力だけでなく、増量法として機能する機会も追求している。
論文 参考訳(メタデータ) (2024-03-25T19:15:19Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Less is More: On the Feature Redundancy of Pretrained Models When
Transferring to Few-shot Tasks [120.23328563831704]
事前訓練されたモデルを下流タスクに転送することは、ターゲットデータと線形探索を行うのと同じくらい簡単である。
線形探索では, 下流データが少ない場合に, 事前学習した特徴が極めて冗長であることを示す。
論文 参考訳(メタデータ) (2023-10-05T19:00:49Z) - Few-Shot Object Detection via Synthetic Features with Optimal Transport [28.072187044345107]
我々は,新しいクラスのための合成データを生成するために,ジェネレータを訓練する新しい手法を提案する。
私たちの包括的な目標は、ベースデータセットのデータバリエーションをキャプチャするジェネレータをトレーニングすることにあります。
次に、学習したジェネレータを用いて合成データを生成することにより、キャプチャしたバリエーションを新しいクラスに変換する。
論文 参考訳(メタデータ) (2023-08-29T03:54:26Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Revisiting the Updates of a Pre-trained Model for Few-shot Learning [11.871523410051527]
我々は2つの人気のある更新手法、微調整と線形探索を比較した。
試料数の増加に伴い, 微調整は線形探索より優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-13T08:47:06Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Data Distillation for Text Classification [7.473576666437028]
データ蒸留は、大規模なトレーニングデータセットから、より小さな合成データセットに知識を蒸留することを目的としている。
テキスト分類のための新しいデータ蒸留法を開発した。
元のテキストデータの0.1%のサイズの蒸留されたデータは、元の約90%のパフォーマンスを達成する結果は、かなり印象的です。
論文 参考訳(メタデータ) (2021-04-17T04:54:54Z) - Pre-trained Summarization Distillation [121.14806854092672]
近年の分類・回帰作業におけるBERT蒸留の研究は, 直接的知識蒸留による高い性能を示している。
あるいは、機械翻訳の実践者は擬似ラベルを用いて蒸留し、小さなモデルをより大きなモデルの翻訳に基づいて訓練する。
第三に、より単純なアプローチは'shrink and fine-tune' (SFT) であり、より小さな学生モデルにパラメータをコピーして微調整することで、明示的な蒸留を避ける。
論文 参考訳(メタデータ) (2020-10-24T23:15:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。