Fugu-MT 論文翻訳(概要): On Good Practices for Task-Specific Distillation of Large Pretrained Visual Models

論文の概要: On Good Practices for Task-Specific Distillation of Large Pretrained Visual Models

arxiv url: http://arxiv.org/abs/2402.11305v2
Date: Tue, 7 May 2024 15:30:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-08 19:23:11.186506
Title: On Good Practices for Task-Specific Distillation of Large Pretrained Visual Models
Title（参考訳）: 大規模事前学習型視覚モデルのタスク特異的蒸留に関するグッドプラクティスについて
Authors: Juliette Marrie, Michael Arbel, Julien Mairal, Diane Larlus,
Abstract要約: 最近の事前学習モデルの優れた堅牢性と汎用性は、文献で確立された共通の実践に挑戦することを示します。また、安定拡散に基づくMixupの変種が標準データ拡張を補完することを示す。
参考スコア（独自算出の注目度）: 42.57860180847724
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large pretrained visual models exhibit remarkable generalization across diverse recognition tasks. Yet, real-world applications often demand compact models tailored to specific problems. Variants of knowledge distillation have been devised for such a purpose, enabling task-specific compact models (the students) to learn from a generic large pretrained one (the teacher). In this paper, we show that the excellent robustness and versatility of recent pretrained models challenge common practices established in the literature, calling for a new set of optimal guidelines for task-specific distillation. To address the lack of samples in downstream tasks, we also show that a variant of Mixup based on stable diffusion complements standard data augmentation. This strategy eliminates the need for engineered text prompts and improves distillation of generic models into streamlined specialized networks.
Abstract（参考訳）: 大きな事前訓練された視覚モデルは、様々な認識タスクにまたがる顕著な一般化を示す。しかし、現実世界のアプリケーションは特定の問題に合わせたコンパクトなモデルを必要とすることが多い。このような目的のために、知識蒸留のバリエーションが考案され、タスク固有のコンパクトモデル(学生)が、一般的な大きな事前訓練されたモデル(教師)から学ぶことができるようになった。本稿では,近年のプレトレーニングモデルにおける優れたロバスト性と汎用性が文献で確立されている共通プラクティスに挑戦することを示し,課題特異的蒸留のための新しいガイドラインのセットを提唱する。下流タスクにおけるサンプルの欠如に対処するために、安定拡散に基づくMixupの変種が標準データ拡張を補完することを示す。この戦略は、エンジニアリングされたテキストプロンプトの必要性を排除し、汎用モデルの合理化された特殊ネットワークへの蒸留を改善する。

関連論文リスト

SpectR: Dynamically Composing LM Experts with Spectral Routing [37.969478059005574]
本稿では、推論中の各ステップで専門家モデルを動的に構成するアプローチであるSPECTRを紹介する。 SPECTRでは、代替のトレーニング不要な手法よりもルーティング精度が向上し、エキスパートドメイン間のタスク性能が向上することを示す。
論文参考訳（メタデータ） (2025-04-04T13:58:44Z)
Model Diffusion for Certifiable Few-shot Transfer Learning [28.810318792978762]
大規模ディープラーニングにおいて、低データ問題を解決するための一般的な効果的なワークフローは、パラメータ効率の微調整(PEFT)を通じて、強力な事前学習基礎モデル(FM)を新しいタスクに適用することである。実証的な効果はあるものの、結果として得られるソリューションは、その正確性を証明するための一般化保証を欠いている。我々は,低ショット体制においても,下流タスクに対する非空き学習理論の一般化を保証するために,新しい伝達学習手法を開発した。
論文参考訳（メタデータ） (2025-02-10T19:11:48Z)
Faithful Label-free Knowledge Distillation [8.572967695281054]
本稿では,中期教師(TinTeM)と呼ばれるラベルフリーな知識蒸留手法を提案する。より忠実な学生を生み出し、教師ネットワークの振る舞いをよりよく再現し、モデルの堅牢性、一般化可能性、アウト・オブ・ディストリビューション検出などをテストする。
論文参考訳（メタデータ） (2024-11-22T01:48:44Z)
Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。 DivBS(Diversified Batch Selection)を提案する。
論文参考訳（メタデータ） (2024-06-07T12:12:20Z)
Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文参考訳（メタデータ） (2024-02-07T13:41:53Z)
Bridging Generative and Discriminative Models for Unified Visual Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文参考訳（メタデータ） (2024-01-29T10:36:57Z)
LatentDR: Improving Model Generalization Through Sample-Aware Latent Degradation and Restoration [22.871920291497094]
本稿では,分布認識型潜伏増大のための新しいアプローチを提案する。我々の手法はまず潜伏空間のサンプルを分解し、拡張ラベルにマッピングし、トレーニング中にサンプルを復元する。提案手法は,より一般化可能なモデルの構築において,その汎用性を示すとともに,長尾認識タスクに柔軟に適用可能であることを示す。
論文参考訳（メタデータ） (2023-08-28T14:08:42Z)
Prototype-guided Cross-task Knowledge Distillation for Large-scale Models [103.04711721343278]
クロスタスクの知識蒸留は、競争力のあるパフォーマンスを得るために小さな学生モデルを訓練するのに役立ちます。本稿では,大規模教師ネットワークの内在的ローカルレベルのオブジェクト知識を様々なタスクシナリオに転送するための,プロトタイプ誘導型クロスタスク知識蒸留(ProC-KD)アプローチを提案する。
論文参考訳（メタデータ） (2022-12-26T15:00:42Z)
Squared $\ell_2$ Norm as Consistency Loss for Leveraging Augmented Data to Learn Robust and Invariant Representations [76.85274970052762]
元のサンプルと拡張されたサンプルの埋め込み/表現の距離を規則化することは、ニューラルネットワークの堅牢性を改善するための一般的なテクニックである。本稿では、これらの様々な正規化選択について検討し、埋め込みの正規化方法の理解を深める。私たちが特定したジェネリックアプローチ(squared $ell$ regularized augmentation)は、それぞれ1つのタスクのために特別に設計されたいくつかの手法より優れていることを示す。
論文参考訳（メタデータ） (2020-11-25T22:40:09Z)
Manifold attack [0.22419496088582863]
本稿では,元データから潜在表現への多様体保存(manifold learning)を強制する。正則化のアプローチは,正則化の精度向上と,逆例の堅牢性に寄与することを示す。
論文参考訳（メタデータ） (2020-09-13T09:39:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。