論文の概要: Revisiting Knowledge Distillation under Distribution Shift
- arxiv url: http://arxiv.org/abs/2312.16242v2
- Date: Sun, 7 Jan 2024 08:52:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 21:34:20.897926
- Title: Revisiting Knowledge Distillation under Distribution Shift
- Title(参考訳): 流通シフト下における知識蒸留の再検討
- Authors: Songming Zhang and Ziyu Lyu and Xiaofeng Chen
- Abstract要約: 本研究では, 流通シフトに対する知識蒸留のメカニズムについて検討する。
本稿では,2つの一般分布シフトに対して知識蒸留をベンチマークするための統一的かつ体系的な枠組みを提案する。
分布シフト下での教育成績の低さを興味深い観察で明らかにした。
- 参考スコア(独自算出の注目度): 7.796685962570969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge distillation transfers knowledge from large models into small
models, and has recently made remarkable achievements. However, few studies has
investigated the mechanism of knowledge distillation against distribution
shift. Distribution shift refers to the data distribution drifts between
training and testing phases. In this paper, we reconsider the paradigm of
knowledge distillation by reformulating the objective function in shift
situations. Under the real scenarios, we propose a unified and systematic
framework to benchmark knowledge distillation against two general
distributional shifts including diversity and correlation shift. The evaluation
benchmark covers more than 30 methods from algorithmic, data-driven, and
optimization perspectives for five benchmark datasets. Overall, we conduct
extensive experiments on the student model. We reveal intriguing observations
of poor teaching performance under distribution shifts; in particular, complex
algorithms and data augmentation offer limited gains in many cases.
- Abstract(参考訳): 知識蒸留は、大きなモデルから小さなモデルに知識を移し、最近目覚ましい成果を上げている。
しかし,分布変化に対する知識蒸留のメカニズムに関する研究は少ない。
分散シフトとは、トレーニングとテストフェーズの間のデータ分散のドリフトを指す。
本稿では, 移動状況における目的関数を再構成し, 知識蒸留のパラダイムを再考する。
実シナリオでは,多様性と相関シフトを含む2つの一般的な分布シフトに対して,知識蒸留をベンチマークするための統一的かつ体系的な枠組みを提案する。
評価ベンチマークは、アルゴリズム、データ駆動、および5つのベンチマークデータセットの最適化パースペクティブから30以上のメソッドをカバーする。
全体としては,学生モデルについて広範な実験を行う。
特に,複雑なアルゴリズムやデータ拡張は,多くの場合において限られた利益しか得られない。
関連論文リスト
- Harnessing the Power of Vicinity-Informed Analysis for Classification under Covariate Shift [9.530897053573186]
転送学習は、ソース分布からのデータを活用することにより、ターゲット分布の予測精度を向上させる。
本稿では,周辺情報,すなわちデータポイントの局所的構造を利用した新しい異種性尺度を提案する。
提案手法を用いて過大な誤差を特徴付けるとともに,従来の手法と比較して高速あるいは競合的な収束率を示す。
論文 参考訳(メタデータ) (2024-05-27T07:55:27Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - Sharpness & Shift-Aware Self-Supervised Learning [17.978849280772092]
自己教師付き学習は、より下流のタスクのためにラベルのないデータから意味のある特徴を抽出することを目的としている。
我々は、この分類タスクの一般的な損失に暗黙的に影響を及ぼす要因を実現するために厳密な理論を開発する。
我々は,我々の理論的な知見を検証し,鋭さとシフトアウェアなコントラスト学習が性能を著しく向上させることを示すため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-05-17T14:42:16Z) - Towards Effective Collaborative Learning in Long-Tailed Recognition [16.202524991074416]
現実世界のデータは通常、少数民族が著しく過小評価されている厳しい階級不均衡と長い尾の分布に悩まされる。
近年の研究では、マイノリティにおけるモデルの不確実性を緩和するために、マルチエキスパートアーキテクチャを利用するのが好ましい。
本稿では,クラス分布の観点から専門家間の知識伝達が不均衡であり,マイノリティクラスの性能改善が限定されていることを観察する。
論文 参考訳(メタデータ) (2023-05-05T09:16:06Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - An Empirical Study on Distribution Shift Robustness From the Perspective
of Pre-Training and Data Augmentation [91.62129090006745]
本稿では,事前学習とデータ拡張の観点から分布シフト問題を考察する。
我々は,事前学習とデータ拡張に焦点を当てた,最初の総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2022-05-25T13:04:53Z) - Robust Generalization despite Distribution Shift via Minimum
Discriminating Information [46.164498176119665]
我々は、トレーニングデータに加えて、シフトしたテスト分布に関する部分的な構造的知識を持つモデリングフレームワークを導入する。
我々は、利用可能な事前知識を埋め込むために、最小限の識別情報の原則を用いる。
未知のシフト分布に関する明示的な一般化境界を得る。
論文 参考訳(メタデータ) (2021-06-08T15:25:35Z) - Unsupervised Transfer Learning for Spatiotemporal Predictive Networks [90.67309545798224]
我々は、教師なし学習されたモデルの動物園から別のネットワークへ知識を伝達する方法を研究する。
私たちのモチベーションは、モデルは異なるソースからの複雑なダイナミクスを理解することが期待されていることです。
提案手法は,時間的予測のための3つのベンチマークで大幅に改善され,重要度が低いベンチマークであっても,ターゲットのメリットが得られた。
論文 参考訳(メタデータ) (2020-09-24T15:40:55Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z) - Learning From Multiple Experts: Self-paced Knowledge Distillation for
Long-tailed Classification [106.08067870620218]
我々は,LFME(Learning From Multiple Experts)と呼ばれる自己評価型知識蒸留フレームワークを提案する。
提案するLFMEフレームワークは,複数の'Experts'からの知識を集約して,統一された学生モデルを学ぶ。
提案手法は,最先端の手法に比べて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-06T12:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。