論文の概要: Multi-Level Feature Distillation of Joint Teachers Trained on Distinct Image Datasets
- arxiv url: http://arxiv.org/abs/2410.22184v1
- Date: Tue, 29 Oct 2024 16:23:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:42:53.883774
- Title: Multi-Level Feature Distillation of Joint Teachers Trained on Distinct Image Datasets
- Title(参考訳): 個別画像データセットを用いた共同教師のマルチレベル特徴蒸留
- Authors: Adrian Iordache, Bogdan Alexe, Radu Tudor Ionescu,
- Abstract要約: 本研究では,異なるデータセットで学習した複数の教師の知識を抽出する学習支援フレームワークを提案する。
提案手法は, 学生モデルに知識を伝達する多段階的特徴蒸留法を用いて, 検討したデータセットのそれぞれについて検討する。
我々は、新しいMLFD(Multi-Level Feature Distillation)が、個々のデータセットでトレーニングされたり、一度にすべてのデータセットで共同でトレーニングされたりした、同等のアーキテクチャを大幅に超えることを示した。
- 参考スコア(独自算出の注目度): 22.341604423831733
- License:
- Abstract: We propose a novel teacher-student framework to distill knowledge from multiple teachers trained on distinct datasets. Each teacher is first trained from scratch on its own dataset. Then, the teachers are combined into a joint architecture, which fuses the features of all teachers at multiple representation levels. The joint teacher architecture is fine-tuned on samples from all datasets, thus gathering useful generic information from all data samples. Finally, we employ a multi-level feature distillation procedure to transfer the knowledge to a student model for each of the considered datasets. We conduct image classification experiments on seven benchmarks, and action recognition experiments on three benchmarks. To illustrate the power of our feature distillation procedure, the student architectures are chosen to be identical to those of the individual teachers. To demonstrate the flexibility of our approach, we combine teachers with distinct architectures. We show that our novel Multi-Level Feature Distillation (MLFD) can significantly surpass equivalent architectures that are either trained on individual datasets, or jointly trained on all datasets at once. Furthermore, we confirm that each step of the proposed training procedure is well motivated by a comprehensive ablation study. We publicly release our code at https://github.com/AdrianIordache/MLFD.
- Abstract(参考訳): 本研究では,異なるデータセットで学習した複数の教師の知識を抽出する新しい学習フレームワークを提案する。
各教師はまず、自身のデータセットをスクラッチからトレーニングする。
そして、教師は、複数の表現レベルで全ての教師の特徴を融合させる共同建築にまとめられる。
共同教師アーキテクチャは、すべてのデータセットのサンプルに基づいて微調整され、すべてのデータサンプルから有用な汎用情報を収集する。
最後に,学生モデルに知識を伝達するために,多段階の特徴蒸留手法を用いる。
7つのベンチマークで画像分類実験を行い、3つのベンチマークで行動認識実験を行った。
特徴蒸留手法のパワーを説明するために,学生の建築は個々の教師のものと同一であるように選択される。
このアプローチの柔軟性を示すために、教師と異なるアーキテクチャを組み合わせる。
我々は、新しいMLFD(Multi-Level Feature Distillation)が、個々のデータセットでトレーニングされたり、一度にすべてのデータセットで共同でトレーニングされたりした、同等のアーキテクチャを大幅に超えることを示した。
さらに,提案手法の各ステップが包括的アブレーション研究によって動機付けられていることを確認する。
コードについてはhttps://github.com/AdrianIordache/MLFD.comで公開しています。
関連論文リスト
- JEDI: Joint Expert Distillation in a Semi-Supervised Multi-Dataset
Student-Teacher Scenario for Video Action Recognition [29.67402932890899]
マルチデータセットに基づく半教師付き学習手法であるJEDIを提案する。
複数の専門家の知識を効率よく組み合わせ、異なるデータセットで学習し、個々のデータセット毎、学生モデルのパフォーマンスをトレーニングし改善する。
論文 参考訳(メタデータ) (2023-08-09T13:09:07Z) - Teaching What You Should Teach: A Data-Based Distillation Method [20.595460553747163]
知識蒸留フレームワークに「教えるべきものを教える」戦略を導入する。
本稿では,より効率的かつ合理的な蒸留を支援するために,望まれる増補サンプルを探索するデータベース蒸留手法"TST"を提案する。
具体的には,教師の強みと生徒の弱みを補うことを支援する,優先バイアス付きニューラルネットワークベースのデータ拡張モジュールを設計する。
論文 参考訳(メタデータ) (2022-12-11T06:22:14Z) - Distilling Knowledge from Self-Supervised Teacher by Embedding Graph
Alignment [52.704331909850026]
我々は、自己指導型事前学習モデルから他の学生ネットワークへ知識を伝達するための新しい知識蒸留フレームワークを定式化した。
自己教師型学習におけるインスタンス識別の精神に触発され,特徴埋め込み空間におけるグラフ定式化によるインスタンスとインスタンスの関係をモデル化する。
蒸留方式は, 学生ネットワーク上での表現学習を促進するために, 自己指導型知識の伝達に柔軟に適用できる。
論文 参考訳(メタデータ) (2022-11-23T19:27:48Z) - Multi-Task Self-Training for Learning General Representations [97.01728635294879]
マルチタスク・セルフトレーニング(MuST)は、独立した専門教師モデルにおける知識を活用して、一人の一般学生モデルを訓練する。
MuSTはラベルなしまたは部分的にラベル付けされたデータセットでスケーラブルで、大規模データセットのトレーニングにおいて、特別な教師付きモデルとセルフ教師付きモデルの両方を上回っている。
論文 参考訳(メタデータ) (2021-08-25T17:20:50Z) - Representation Consolidation for Training Expert Students [54.90754502493968]
マルチヘッド多タスク蒸留法は,タスク固有の教師の表現を集約し,下流のパフォーマンスを向上させるのに十分であることを示す。
また,本手法では,複数のドメインで訓練された複数の教師の表現的知識を1つのモデルに組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-16T17:58:18Z) - Graph Consistency based Mean-Teaching for Unsupervised Domain Adaptive
Person Re-Identification [54.58165777717885]
本論文では,教師ネットワークと学生ネットワークの間にGCC(Graph Consistency Constraint)を構築するためのGCMT(Graph Consistency Based Mean-Teaching)手法を提案する。
マーケット-1501、デュークMTMCreID、MSMT17の3つのデータセットの実験により、提案されたGCMTは最先端の手法よりも明確なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2021-05-11T04:09:49Z) - Distilling a Powerful Student Model via Online Knowledge Distillation [158.68873654990895]
既存のオンライン知識蒸留アプローチは、最高のパフォーマンスを持つ学生を採用するか、より良い全体的なパフォーマンスのためのアンサンブルモデルを構築する。
本稿では,機能融合と自己蒸留という2つの要素からなるFFSDと呼ばれる新しいオンライン知識蒸留法を提案する。
論文 参考訳(メタデータ) (2021-03-26T13:54:24Z) - Cascaded channel pruning using hierarchical self-distillation [26.498907514590165]
本稿では,教師,教員,学生の枠組みに基づく階層的知識蒸留によるフィルタレベルのプルーニング手法を提案する。
本手法では, 対象学生と同じアーキテクチャと重みを共有する中間的プルーニングレベルにおいて, アシスタントを活用できる。
論文 参考訳(メタデータ) (2020-08-16T00:19:35Z) - Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical
Understanding of Outdoor Scene [76.4183572058063]
複数の屋外シーン理解タスクに対して,リッチな注釈付き3Dポイントクラウドデータセットを提案する。
データセットは階層型ラベルとインスタンスベースのラベルの両方でポイントワイズアノテートされている。
本稿では,3次元点雲分割のための階層的学習問題を定式化し,様々な階層間の整合性を評価することを提案する。
論文 参考訳(メタデータ) (2020-08-11T19:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。