論文の概要: Asymmetric Duos: Sidekicks Improve Uncertainty
- arxiv url: http://arxiv.org/abs/2505.18636v1
- Date: Sat, 24 May 2025 10:49:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.556471
- Title: Asymmetric Duos: Sidekicks Improve Uncertainty
- Title(参考訳): 非対称なDuos:サイドキックは不確実性を改善する
- Authors: Tim G. Zhou, Evan Shelhamer, Geoff Pleiss,
- Abstract要約: 我々は,大規模モデルの不確実性および下流決定を改善するための新たなコスト効果戦略を導入する。
簡単な学習重み付き平均化により、このエンファ対称デュオの予測を集約する。
驚くべきことに、その固有の非対称性にもかかわらず、サイドキックモデルはより大きなモデルの性能をほとんど損なわない。
- 参考スコア(独自算出の注目度): 19.531882298183582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The go-to strategy to apply deep networks in settings where uncertainty informs decisions--ensembling multiple training runs with random initializations--is ill-suited for the extremely large-scale models and practical fine-tuning workflows of today. We introduce a new cost-effective strategy for improving the uncertainty quantification and downstream decisions of a large model (e.g. a fine-tuned ViT-B): coupling it with a less accurate but much smaller "sidekick" (e.g. a fine-tuned ResNet-34) with a fraction of the computational cost. We propose aggregating the predictions of this \emph{Asymmetric Duo} by simple learned weighted averaging. Surprisingly, despite their inherent asymmetry, the sidekick model almost never harms the performance of the larger model. In fact, across five image classification benchmarks and a variety of model architectures and training schemes (including soups), Asymmetric Duos significantly improve accuracy, uncertainty quantification, and selective classification metrics with only ${\sim}10-20\%$ more computation.
- Abstract(参考訳): さまざまなトレーニングをランダムに初期化して実行することで、不確実性が通知されるような設定にディープネットワークを適用するという戦略は、今日の非常に大規模なモデルや実践的な微調整ワークフローには適していない。
本稿では,大規模モデルの不確実性定量化と下流決定(例えば微調整ViT-B)を改善するための新たなコスト効率戦略を提案する。
簡単な学習重み付き平均化により,この擬似非対称デュオの予測を集約することを提案する。
驚くべきことに、その固有の非対称性にもかかわらず、サイドキックモデルはより大きなモデルの性能をほとんど損なわない。
実際、5つの画像分類ベンチマークと様々なモデルアーキテクチャとトレーニングスキーム(スープを含む)において、非対称デュオは精度、不確かさの定量化、および選択的な分類基準をわずか${\sim}10-20\%$以上の計算で改善した。
関連論文リスト
- MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。
我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。
その結果,MARSの実装はAdamより一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Window-Based Early-Exit Cascades for Uncertainty Estimation: When Deep
Ensembles are More Efficient than Single Models [5.0401589279256065]
アンサンブルは、アーキテクチャファミリ内の単一モデルをスケーリングするよりも、より計算的に(推論において)効率的であることを示す。
本研究では,不確実性推定に関連する課題に対して,これらの効率性の向上について検討する。
多数のネットワークアーキテクチャおよび不確実性タスクにわたるImageNetスケールデータの実験により、提案したウィンドウベースの早期実行アプローチは、より優れた不確実性計算トレードオフを実現することができることを示す。
論文 参考訳(メタデータ) (2023-03-14T15:57:54Z) - Robust Binary Models by Pruning Randomly-initialized Networks [57.03100916030444]
ランダムな二元ネットワークから敵攻撃に対して頑健なモデルを得る方法を提案する。
ランダムな二元ネットワークを切断することにより、ロバストモデルの構造を学習する。
本手法は, 敵攻撃の有無で, 強力な抽選券仮説を立証する。
論文 参考訳(メタデータ) (2022-02-03T00:05:08Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - A Novel Regression Loss for Non-Parametric Uncertainty Optimization [7.766663822644739]
不確実性の定量化は、安全な機械学習を確立する最も有望なアプローチの1つである。
これまでの最も一般的なアプローチの1つはモンテカルロドロップアウトで、計算量的に安価で、実際に簡単に適用できる。
この問題に対処するため,第2モーメント損失(UCI)と呼ばれる新たな目標を提案する。
論文 参考訳(メタデータ) (2021-01-07T19:12:06Z) - A Simple Fine-tuning Is All You Need: Towards Robust Deep Learning Via
Adversarial Fine-tuning [90.44219200633286]
我々は,$textitslow start, fast decay$ learning rate schedulingストラテジーに基づく,単純かつ非常に効果的な敵の微調整手法を提案する。
実験の結果,提案手法はCIFAR-10, CIFAR-100, ImageNetデータセットの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-25T20:50:15Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Triple Wins: Boosting Accuracy, Robustness and Efficiency Together by
Enabling Input-Adaptive Inference [119.19779637025444]
深層ネットワークは、(クリーンな自然画像の場合)正確さと(敵対的な摂動画像の場合)頑健さの相違に直面することを最近提案された。
本稿では,入力適応推論に関連するマルチエグジットネットワークについて検討し,モデル精度,ロバスト性,効率の最適化において「スイートポイント」を達成する上での強い期待を示す。
論文 参考訳(メタデータ) (2020-02-24T00:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。