論文の概要: Split-Ensemble: Efficient OOD-aware Ensemble via Task and Model Splitting
- arxiv url: http://arxiv.org/abs/2312.09148v2
- Date: Mon, 27 May 2024 05:59:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 08:15:32.454499
- Title: Split-Ensemble: Efficient OOD-aware Ensemble via Task and Model Splitting
- Title(参考訳): スプリット・アンサンブル:タスクとモデル分割による効率的なOOD認識アンサンブル
- Authors: Anthony Chen, Huanrui Yang, Yulu Gan, Denis A Gudovskiy, Zhen Dong, Haofan Wang, Tomoyuki Okuno, Yohei Nakata, Kurt Keutzer, Shanghang Zhang,
- Abstract要約: 不確実性推定は、機械学習モデルがアウト・オブ・ディストリビューション(OOD)入力を検出するために不可欠である。
本研究では,代替の Split-Ensemble 法を用いたOODデータや追加の推論コストを使わずに不確実性推定を改善する。
- 参考スコア(独自算出の注目度): 42.59091710435927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Uncertainty estimation is crucial for machine learning models to detect out-of-distribution (OOD) inputs. However, the conventional discriminative deep learning classifiers produce uncalibrated closed-set predictions for OOD data. A more robust classifiers with the uncertainty estimation typically require a potentially unavailable OOD dataset for outlier exposure training, or a considerable amount of additional memory and compute to build ensemble models. In this work, we improve on uncertainty estimation without extra OOD data or additional inference costs using an alternative Split-Ensemble method. Specifically, we propose a novel subtask-splitting ensemble training objective, where a common multiclass classification task is split into several complementary subtasks. Then, each subtask's training data can be considered as OOD to the other subtasks. Diverse submodels can therefore be trained on each subtask with OOD-aware objectives. The subtask-splitting objective enables us to share low-level features across submodels to avoid parameter and computational overheads. In particular, we build a tree-like Split-Ensemble architecture by performing iterative splitting and pruning from a shared backbone model, where each branch serves as a submodel corresponding to a subtask. This leads to improved accuracy and uncertainty estimation across submodels under a fixed ensemble computation budget. Empirical study with ResNet-18 backbone shows Split-Ensemble, without additional computation cost, improves accuracy over a single model by 0.8%, 1.8%, and 25.5% on CIFAR-10, CIFAR-100, and Tiny-ImageNet, respectively. OOD detection for the same backbone and in-distribution datasets surpasses a single model baseline by, correspondingly, 2.2%, 8.1%, and 29.6% mean AUROC.
- Abstract(参考訳): 不確実性推定は、機械学習モデルがアウト・オブ・ディストリビューション(OOD)入力を検出するために不可欠である。
しかし,従来の識別型深層学習分類器は,OODデータに対する未分類閉集合予測を生成する。
不確実性推定を持つより堅牢な分類器は、通常、アウトレイラ露光訓練のための潜在的に利用できないOODデータセット、あるいはアンサンブルモデルを構築するためにかなりの量のメモリと計算を必要とする。
本研究では,代替の Split-Ensemble 法を用いたOODデータや追加の推論コストを使わずに不確実性推定を改善する。
具体的には,共通クラス分類タスクを複数の補完サブタスクに分割する,新しいサブタスク分割アンサンブル学習目標を提案する。
次に、各サブタスクのトレーニングデータは、他のサブタスクに対するOODとみなすことができる。
したがって、様々なサブモデルはOODを意識した目的で各サブタスクで訓練することができる。
サブタスク分割の目的は,パラメータや計算上のオーバーヘッドを避けるために,サブモデル間で低レベルの特徴を共有できるようにすることである。
特に,各ブランチがサブタスクに対応するサブモデルとして機能する共有バックボーンモデルから繰り返し分割およびプルーニングを行うことにより,ツリーライクなSplit-Ensembleアーキテクチャを構築する。
これにより、固定アンサンブル計算予算の下で、サブモデル全体の精度と不確実性の推定が改善される。
ResNet-18のバックボーンによる実証研究によると、Split-Ensembleは追加の計算コストなしで、CIFAR-10、CIFAR-100、Tiny-ImageNetでそれぞれ0.8%、1.8%、25.5%の精度向上を実現している。
同じバックボーンと分布内データセットのOOD検出は、AUROCの平均値である2.2%、8.1%、29.6%で単一のモデルベースラインを超える。
関連論文リスト
- MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
モデルマージは、同じトレーニング済みモデルから細調整された複数のシングルタスクモデルをマルチタスクモデルに結合する効果的なアプローチである。
既存のモデルマージ手法は、平均的なタスク精度の向上に重点を置いている。
Amortized Pareto Front (MAP) を用いた新しい低計算アルゴリズム Model Merging を導入する。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率の高いディープアンサンブル手法であるLoRA-Ensembleを紹介する。
全メンバー間で重みを共有できる1つの事前学習型自己注意ネットワークを利用することで、注意投影のために、メンバー固有の低ランク行列を訓練する。
提案手法は明示的なアンサンブルよりも優れたキャリブレーションを示し,様々な予測タスクやデータセットに対して類似あるいは良好な精度を実現する。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - Building a Winning Team: Selecting Source Model Ensembles using a
Submodular Transferability Estimation Approach [20.86345962679122]
公開されている事前訓練されたモデルの目標タスクへの転送可能性の推定は、伝達学習タスクにとって重要な場所となっている。
本稿では, モデルアンサンブルの下流タスクへの転送可能性を評価するために, 最適なtranSportベースのsuBmOdular tRaNsferability Metrics(OSBORN)を提案する。
論文 参考訳(メタデータ) (2023-09-05T17:57:31Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Continual Contrastive Finetuning Improves Low-Resource Relation
Extraction [34.76128090845668]
関係抽出は低リソースのシナリオやドメインでは特に困難である。
近年の文献は自己教師型学習によって低リソースREに取り組みつつある。
コントラスト学習の一貫した目的を用いたREモデルの事前学習と微調整を提案する。
論文 参考訳(メタデータ) (2022-12-21T07:30:22Z) - Deep Model Reassembly [60.6531819328247]
我々はDeep Model Reassembly(DeRy)と呼ばれる新しい知識伝達タスクを探索する。
DeRyの目標は、まず各モデルを固有のビルディングブロックに分割し、それから派生したブロックを選択的に再組み立てて、カスタマイズされたネットワークを生成することである。
ImageNetでは、最高の再組み立てモデルは微調整なしで78.6%のトップ1の精度を実現している。
論文 参考訳(メタデータ) (2022-10-24T10:16:13Z) - BRIO: Bringing Order to Abstractive Summarization [107.97378285293507]
非決定論的分布を前提とした新しい学習パラダイムを提案する。
提案手法は, CNN/DailyMail (47.78 ROUGE-1) と XSum (49.07 ROUGE-1) のデータセット上で, 最新の結果が得られる。
論文 参考訳(メタデータ) (2022-03-31T05:19:38Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - Towards Consistent Predictive Confidence through Fitted Ensembles [6.371992222487036]
本稿では,OOD実例が存在する場合に,分類器の性能を測定するための分離可能な概念学習フレームワークを提案する。
我々は、より一貫した深層モデルの予測信頼度を高めるために、より強力なベースラインを新たに提示する。
論文 参考訳(メタデータ) (2021-06-22T21:32:31Z) - Probabilistic Anchor Assignment with IoU Prediction for Object Detection [9.703212439661097]
オブジェクト検出では、どのアンカーを正または負のサンプルとして割り当てるか、すなわちアンカー代入(アンカー代入)がモデルの性能に大きく影響を与えるコアプロシージャとして明らかにされている。
本稿では,モデルの学習状況に応じて,アンカーを正と負のサンプルに適応的に分離する新しいアンカー代入戦略を提案する。
論文 参考訳(メタデータ) (2020-07-16T04:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。