論文の概要: Bayesian Optimization Meets Self-Distillation
- arxiv url: http://arxiv.org/abs/2304.12666v1
- Date: Tue, 25 Apr 2023 09:12:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 21:20:58.755286
- Title: Bayesian Optimization Meets Self-Distillation
- Title(参考訳): ベイズ最適化と自己蒸留
- Authors: HyunJae Lee, Heon Song, Hyeonsoo Lee, Gi-hyeon Lee, Suyeong Park and
Donggeun Yoo
- Abstract要約: BOと自己蒸留を組み合わせたBOSSフレームワークを提案する。
BOSS は BO や SD よりも幅広いタスクで性能が大幅に向上した。
- 参考スコア(独自算出の注目度): 6.2457725951218315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bayesian optimization (BO) has contributed greatly to improving model
performance by suggesting promising hyperparameter configurations iteratively
based on observations from multiple training trials. However, only partial
knowledge (i.e., the measured performances of trained models and their
hyperparameter configurations) from previous trials is transferred. On the
other hand, Self-Distillation (SD) only transfers partial knowledge learned by
the task model itself. To fully leverage the various knowledge gained from all
training trials, we propose the BOSS framework, which combines BO and SD. BOSS
suggests promising hyperparameter configurations through BO and carefully
selects pre-trained models from previous trials for SD, which are otherwise
abandoned in the conventional BO process. BOSS achieves significantly better
performance than both BO and SD in a wide range of tasks including general
image classification, learning with noisy labels, semi-supervised learning, and
medical image analysis tasks.
- Abstract(参考訳): ベイズ最適化(BO)は、複数のトレーニング試験からの観察に基づいて、約束されるハイパーパラメータ構成を反復的に提案することにより、モデル性能の向上に大きく貢献している。
しかし、前回の試験から得られた部分的な知識(すなわち、トレーニングされたモデルの性能とそのハイパーパラメータ構成)のみを転送する。
一方、自己蒸留(SD)はタスクモデル自体から学んだ部分的知識のみを伝達する。
すべてのトレーニングトライアルから得られた知識をフル活用するために,BOとSDを組み合わせたBOSSフレームワークを提案する。
BOSS は BO を通じて有望なハイパーパラメータ構成を提案し、従来の BO プロセスでは放棄されていた SD の以前の試行から事前訓練されたモデルを慎重に選択する。
BOSSは、一般的な画像分類、ノイズラベルによる学習、半教師付き学習、医療画像解析タスクなど、幅広いタスクにおいてBOとSDの両方よりもはるかに優れたパフォーマンスを実現している。
関連論文リスト
- A Bayesian Approach to Data Point Selection [24.98069363998565]
データポイントの選択(DPS)は、ディープラーニングにおいて重要なトピックになりつつある。
既存のDPSへのアプローチは、主にバイレベル最適化(BLO)の定式化に基づいている。
DPSに対する新しいベイズ的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-06T09:04:13Z) - FSD-BEV: Foreground Self-Distillation for Multi-view 3D Object Detection [33.225938984092274]
本稿では,分散の相違を効果的に回避するFSD方式を提案する。
また2つのポイントクラウド拡張(PCI)戦略を設計し、ポイントクラウドの幅を補う。
マルチスケール・フォアグラウンド・エンハンスメント(MSFE)モジュールを開発し,マルチスケール・フォアグラウンドの特徴を抽出・融合する。
論文 参考訳(メタデータ) (2024-07-14T09:39:44Z) - BEND: Bagging Deep Learning Training Based on Efficient Neural Network Diffusion [56.9358325168226]
BEND(Efficient Neural Network Diffusion)に基づくバッグング深層学習学習アルゴリズムを提案する。
我々のアプローチは単純だが効果的であり、まず複数のトレーニングされたモデルの重みとバイアスを入力として、オートエンコーダと潜伏拡散モデルを訓練する。
提案したBENDアルゴリズムは,元のトレーニングモデルと拡散モデルの両方の平均および中央値の精度を一貫して向上させることができる。
論文 参考訳(メタデータ) (2024-03-23T08:40:38Z) - Learning Energy-Based Models by Cooperative Diffusion Recovery Likelihood [64.95663299945171]
高次元データに基づくエネルギーベースモデル(EBM)の訓練は、困難かつ時間を要する可能性がある。
EBMと、GANや拡散モデルのような他の生成フレームワークとの間には、サンプル品質に顕著なギャップがある。
本研究では,協調拡散回復可能性 (CDRL) を提案する。
論文 参考訳(メタデータ) (2023-09-10T22:05:24Z) - Self-Correcting Bayesian Optimization through Bayesian Active Learning [46.235017111395344]
ハイパーパラメータ学習を明示的に優先する2つの獲得関数を提案する。
次に、SALを拡張してベイズ最適化とアクティブラーニングを同時に行う自己補正ベイズ最適化(SCoreBO)を導入する。
論文 参考訳(メタデータ) (2023-04-21T14:50:53Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。