論文の概要: Towards Optimal Trade-offs in Knowledge Distillation for CNNs and Vision Transformers at the Edge
- arxiv url: http://arxiv.org/abs/2407.12808v1
- Date: Tue, 25 Jun 2024 16:15:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 08:47:38.360804
- Title: Towards Optimal Trade-offs in Knowledge Distillation for CNNs and Vision Transformers at the Edge
- Title(参考訳): エッジにおけるCNNと視覚変換器の知識蒸留における最適トレードオフに向けて
- Authors: John Violos, Symeon Papadopoulos, Ioannis Kompatsiaris,
- Abstract要約: 我々は、CNNとViTアーキテクチャのKDプロセスの比較分析を行う。
学生モデルのサイズが精度と推論速度に与える影響について検討する。
第3に,高解像度画像の精度,メモリフットプリント,計算負荷に対する効果を検討する。
- 参考スコア(独自算出の注目度): 15.057975181932534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper discusses four facets of the Knowledge Distillation (KD) process for Convolutional Neural Networks (CNNs) and Vision Transformer (ViT) architectures, particularly when executed on edge devices with constrained processing capabilities. First, we conduct a comparative analysis of the KD process between CNNs and ViT architectures, aiming to elucidate the feasibility and efficacy of employing different architectural configurations for the teacher and student, while assessing their performance and efficiency. Second, we explore the impact of varying the size of the student model on accuracy and inference speed, while maintaining a constant KD duration. Third, we examine the effects of employing higher resolution images on the accuracy, memory footprint and computational workload. Last, we examine the performance improvements obtained by fine-tuning the student model after KD to specific downstream tasks. Through empirical evaluations and analyses, this research provides AI practitioners with insights into optimal strategies for maximizing the effectiveness of the KD process on edge devices.
- Abstract(参考訳): 本稿では、畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)アーキテクチャのための知識蒸留(KD)プロセスの4つの側面について論じる。
まず,CNN と ViT アーキテクチャ間の KD プロセスの比較分析を行い,その性能と効率性を評価しつつ,教師と生徒に異なるアーキテクチャ構成を用いることの有効性と有効性を明らかにする。
第2に,一定のKD持続時間を維持しながら,学生モデルのサイズが精度と推論速度に与える影響について検討する。
第3に,高解像度画像の精度,メモリフットプリント,計算負荷に対する効果を検討する。
最後に、KD後の学生モデルを特定の下流タスクに微調整することで得られる性能改善について検討する。
実験的な評価と分析を通じて、この研究はAI実践者に、エッジデバイス上でのKDプロセスの有効性を最大化するための最適な戦略に関する洞察を提供する。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - DistilDoc: Knowledge Distillation for Visually-Rich Document Applications [22.847266820057985]
本研究は,文書レイアウト分析 (DLA) や文書画像分類 (DIC) など,視覚的にリッチな文書アプリケーションのための知識蒸留について検討する。
我々は、より大きなタスクパイプラインに不可欠な文書理解タスクにおいて、よりリーンでパフォーマンスの高いモデルのためのKD実験手法を設計する。
教師と学生の知識ギャップに影響を与えるものについて検討し、いくつかの方法(適応プロジェクタを用いたバニラKD、MSE、SimKD)が、教師付き学生の訓練より一貫して優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-12T13:55:12Z) - TSCM: A Teacher-Student Model for Vision Place Recognition Using Cross-Metric Knowledge Distillation [6.856317526681759]
視覚的位置認識は、移動ロボットの自律的な探索とナビゲーションにおいて重要な役割を果たす。
既存の手法では、強力だが大規模なネットワークを利用することでこれを克服している。
本稿では,TSCMと呼ばれる高性能な教師と軽量な学生蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-02T02:29:41Z) - Computation-efficient Deep Learning for Computer Vision: A Survey [121.84121397440337]
ディープラーニングモデルは、さまざまな視覚的知覚タスクにおいて、人間レベルのパフォーマンスに到達または超えた。
ディープラーニングモデルは通常、重要な計算資源を必要とし、現実のシナリオでは非現実的な電力消費、遅延、または二酸化炭素排出量につながる。
新しい研究の焦点は計算効率のよいディープラーニングであり、推論時の計算コストを最小限に抑えつつ、良好な性能を達成することを目指している。
論文 参考訳(メタデータ) (2023-08-27T03:55:28Z) - Continuation KD: Improved Knowledge Distillation through the Lens of
Continuation Optimization [29.113990037893597]
知識蒸留(KD)は、より大規模なモデル(教師)から知識を伝達することで、小さなモデル(学生)のパフォーマンスを向上させる自然言語理解(NLU)タスクに広く用いられている。
既存のKDテクニックは、教師の出力のノイズを軽減するものではない。
従来の手法と比較して,これらの問題に対処する新しいKD手法を提案する。
論文 参考訳(メタデータ) (2022-12-12T16:00:20Z) - Impact of a DCT-driven Loss in Attention-based Knowledge-Distillation
for Scene Recognition [64.29650787243443]
本稿では, アクティベーションマップの2次元周波数変換を転送前に提案し, 解析する。
この戦略は、シーン認識などのタスクにおける知識伝達可能性を高める。
我々は、この論文で使われているトレーニングおよび評価フレームワークを、http://www.vpu.eps.uam.es/publications/DCTBasedKDForSceneRecognitionで公開しています。
論文 参考訳(メタデータ) (2022-05-04T11:05:18Z) - Comparison Analysis of Traditional Machine Learning and Deep Learning
Techniques for Data and Image Classification [62.997667081978825]
本研究の目的は、コンピュータビジョン2次元オブジェクト分類タスクに使用される最も一般的な機械学習およびディープラーニング技術を分析し比較することである。
まず、視覚語モデルと深部畳み込みニューラルネットワーク(DCNN)の理論的背景を示す。
次に、Bag of Visual Wordsモデル、VGG16 CNN Architectureを実装します。
論文 参考訳(メタデータ) (2022-04-11T11:34:43Z) - EvDistill: Asynchronous Events to End-task Learning via Bidirectional
Reconstruction-guided Cross-modal Knowledge Distillation [61.33010904301476]
イベントカメラは画素ごとの強度変化を感知し、ダイナミックレンジが高く、動きのぼやけが少ない非同期イベントストリームを生成する。
本稿では,bfEvDistillと呼ばれる新しい手法を提案し,未ラベルのイベントデータから学生ネットワークを学習する。
EvDistillは、イベントとAPSフレームのみのKDよりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-24T08:48:16Z) - AUTOKD: Automatic Knowledge Distillation Into A Student Architecture
Family [10.51711053229702]
ディープラーニングの最先端の成果は、より大きなモデルを使用することによって、着実に改善されている。
知識蒸留(KD)は理論上、小学生がより大きな教師モデルをエミュレートすることを可能にするが、実際には優れた学生アーキテクチャを選択するにはかなりの専門知識が必要である。
本稿では,教師の学習に長けているという特性を共有する学生建築の家族を探すことを提案する。
論文 参考訳(メタデータ) (2021-11-05T15:20:37Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。