論文の概要: Towards Comparable Knowledge Distillation in Semantic Image Segmentation
- arxiv url: http://arxiv.org/abs/2309.03659v1
- Date: Thu, 7 Sep 2023 11:56:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 13:19:10.154479
- Title: Towards Comparable Knowledge Distillation in Semantic Image Segmentation
- Title(参考訳): 意味画像分割における比較知識蒸留に向けて
- Authors: Onno Niemann, Christopher Vox, and Thorben Werner
- Abstract要約: 知識蒸留 (KD) は, セマンティックセグメンテーションにおいて, モデルサイズが大きく, 推論速度が遅い方法の一つとして提案されている。
過去4年間の14の出版物から25の蒸留損失項を抽出した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge Distillation (KD) is one proposed solution to large model sizes and
slow inference speed in semantic segmentation. In our research we identify 25
proposed distillation loss terms from 14 publications in the last 4 years.
Unfortunately, a comparison of terms based on published results is often
impossible, because of differences in training configurations. A good
illustration of this problem is the comparison of two publications from 2022.
Using the same models and dataset, Structural and Statistical Texture
Distillation (SSTKD) reports an increase of student mIoU of 4.54 and a final
performance of 29.19, while Adaptive Perspective Distillation (APD) only
improves student performance by 2.06 percentage points, but achieves a final
performance of 39.25. The reason for such extreme differences is often a
suboptimal choice of hyperparameters and a resulting underperformance of the
student model used as reference point. In our work, we reveal problems of
insufficient hyperparameter tuning by showing that distillation improvements of
two widely accepted frameworks, SKD and IFVD, vanish when hyperparameters are
optimized sufficiently. To improve comparability of future research in the
field, we establish a solid baseline for three datasets and two student models
and provide extensive information on hyperparameter tuning. We find that only
two out of eight techniques can compete with our simple baseline on the ADE20K
dataset.
- Abstract(参考訳): 知識蒸留 (KD) は, セマンティックセグメンテーションにおいて, モデルサイズが大きく, 推論速度が遅い方法の一つとして提案されている。
本研究では,過去4年間に14の出版物から25の蒸留損失項を抽出した。
残念なことに、公開結果に基づく用語の比較は、トレーニング構成の違いのため、しばしば不可能である。
この問題の好例は、2022年の2つの出版物の比較である。
同じモデルとデータセットを用いて、Struform and Statistical Texture Distillation (SSTKD)は学生mIoUの4.54増加と29.19の最終的なパフォーマンスを報告し、Adaptive Perspective Distillation (APD)は学生のパフォーマンスを2.06ポイント改善するが、最終的なパフォーマンスは39.25である。
このような極端な違いの理由は、しばしばハイパーパラメータの最適下選択と、基準点として使用される学生モデルの過小評価である。
本研究では,SKDとIFVDという2つの広く受け入れられているフレームワークの蒸留改善が,過度パラメータを十分に最適化した場合に消滅することを示し,過度パラメータチューニングの問題点を明らかにする。
本研究では,3つのデータセットと2つの学生モデルのためのソリッドベースラインを構築し,ハイパーパラメータチューニングに関する広範な情報を提供する。
ADE20Kデータセットの単純なベースラインと競合できるのは8つのテクニックのうち2つだけです。
関連論文リスト
- De-confounded Data-free Knowledge Distillation for Handling Distribution Shifts [32.1016787150064]
Data-Free Knowledge Distillation (DFKD)は、従来のトレーニングデータに頼ることなく、実際のデプロイメントを強化するために、高性能な小型モデルをトレーニングする有望なタスクである。
既存の方法は、合成データやサンプルデータを利用することで、プライベートデータへの依存を避けるのが一般的である。
本稿では,このような変化の影響から学生モデルを遠ざけるために,因果推論を用いた新しい視点を提案する。
論文 参考訳(メタデータ) (2024-03-28T16:13:22Z) - Augmentation-Free Dense Contrastive Knowledge Distillation for Efficient
Semantic Segmentation [16.957139277317005]
Af-DCD(Augmentation-free Dense Contrastive Knowledge Distillation)は、新しいコントラスト蒸留学習パラダイムである。
Af-DCDはセマンティックセグメンテーションのためのコンパクトで正確なディープニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2023-12-07T09:37:28Z) - One-for-All: Bridge the Gap Between Heterogeneous Architectures in
Knowledge Distillation [69.65734716679925]
知識蒸留は,教師が指導する学習手法を通じて,モデル性能を向上させる上で,極めて効果的な手法であることが証明されている。
既存の蒸留法のほとんどは、教師と生徒のモデルが同じモデルファミリーに属するという前提で設計されている。
我々は, ヘテロジニアスアーキテクチャ間の蒸留性能を大幅に向上させる, OFA-KDという, 単純で効果的な一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元
論文 参考訳(メタデータ) (2023-10-30T11:13:02Z) - Label-Aware Hyperbolic Embeddings for Fine-grained Emotion
Classification [11.973115466838717]
きめ細かい感情分類(FEC)は難しい課題である。
FECはラベル間の微妙なニュアンスを扱う必要がある。
既存のモデルの多くはユークリッド空間におけるテキスト分類の問題にのみ対応している。
ハイプエモ(HypEmo)は, ハイプエモ(HypEmo)という, ハイプエモ(HypEmo)という, ハイプエモ(HypEmo)という, ハイプエモ(HypEmo)という, ハイプエモ(HypEmo
論文 参考訳(メタデータ) (2023-06-26T16:28:33Z) - DisWOT: Student Architecture Search for Distillation WithOut Training [0.0]
我々は,教師にとって最高の学生アーキテクチャを探すための,新しい学習自由フレームワークを探究する。
我々の研究は、バニラトレーニングにおける最適モデルが蒸留の勝者にはならないことを実証的に示している。
CIFAR, ImageNet, NAS-Bench-201 を用いた実験により, 異なる検索空間における最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-03-28T01:58:45Z) - Adversarial Dual-Student with Differentiable Spatial Warping for
Semi-Supervised Semantic Segmentation [70.2166826794421]
本研究では、教師なしデータ拡張を行うために、微分可能な幾何ワープを提案する。
また,平均教師数を改善するために,新しい対角的二重学習フレームワークを提案する。
我々のソリューションは、両方のデータセットで得られるパフォーマンスと最先端の結果を大幅に改善します。
論文 参考訳(メタデータ) (2022-03-05T17:36:17Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Knowledge distillation: A good teacher is patient and consistent [71.14922743774864]
最先端のパフォーマンスを実現する大規模モデルと、実用的な用途で手頃な価格のモデルとの間には、コンピュータビジョンの相違が増えている。
蒸留の有効性に大きな影響を及ぼす可能性のある,特定の暗黙的な設計選択を同定する。
ImageNetの最先端ResNet-50モデルが82.8%の精度で実現されている。
論文 参考訳(メタデータ) (2021-06-09T17:20:40Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。