論文の概要: Logit-Based Ensemble Distribution Distillation for Robust Autoregressive
Sequence Uncertainties
- arxiv url: http://arxiv.org/abs/2305.10384v1
- Date: Wed, 17 May 2023 17:21:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 14:42:41.175082
- Title: Logit-Based Ensemble Distribution Distillation for Robust Autoregressive
Sequence Uncertainties
- Title(参考訳): ロバスト自己回帰配列不確かさに対するロジト型アンサンブル分散蒸留法
- Authors: Yassir Fathullah, Guoxuan Xia, Mark Gales
- Abstract要約: 本研究では,大規模自然言語シーケンスからシーケンスデータへのエンサンブル分散蒸留(EDD)の適用について検討する。
EDDは、高価な(教師)アンサンブルの優れた不確実性を、より安価な(学生)シングルモデルに圧縮することを目的としている。
大規模翻訳タスクにおける現代のトランスフォーマーアーキテクチャでは,ソフトマックスの確率ではなくアンサンブルロジットをモデル化することで,学生が大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 4.8986598953553555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficiently and reliably estimating uncertainty is an important objective in
deep learning. It is especially pertinent to autoregressive sequence tasks,
where training and inference costs are typically very high. However, existing
research has predominantly focused on tasks with static data such as image
classification. In this work, we investigate Ensemble Distribution Distillation
(EDD) applied to large-scale natural language sequence-to-sequence data. EDD
aims to compress the superior uncertainty performance of an expensive (teacher)
ensemble into a cheaper (student) single model. Importantly, the ability to
separate knowledge (epistemic) and data (aleatoric) uncertainty is retained.
Existing probability-space approaches to EDD, however, are difficult to scale
to large vocabularies. We show, for modern transformer architectures on
large-scale translation tasks, that modelling the ensemble logits, instead of
softmax probabilities, leads to significantly better students. Moreover, the
students surprisingly even outperform Deep Ensembles by up to ~10% AUROC on
out-of-distribution detection, whilst matching them at in-distribution
translation.
- Abstract(参考訳): 効率的かつ確実に不確実性を推定することは、ディープラーニングの重要な目的である。
特に、トレーニングと推論のコストが通常非常に高い自己回帰的なシーケンスタスクに関係している。
しかし、既存の研究は主に画像分類などの静的データを用いたタスクに焦点を当てている。
本研究では,大規模自然言語シーケンスからシーケンスデータへのエンサンブル分散蒸留(EDD)の適用について検討する。
EDDは、高価な(教師)アンサンブルの優れた不確実性を、より安価な(学生)シングルモデルに圧縮することを目的としている。
重要なことは、知識(現状)とデータの不確実性を分離する能力を維持することである。
しかし、既存の確率空間アプローチは大きな語彙に拡張することは困難である。
大規模翻訳タスクにおける現代のトランスフォーマーアーキテクチャでは,ソフトマックスの確率ではなくアンサンブルロジットをモデル化することで,学生が大幅に向上することを示す。
さらに、学生は、分布外検出において最大10%のAUROCでDeep Ensemblesを驚くほど上回り、分布内翻訳でそれらをマッチングする。
関連論文リスト
- FedUV: Uniformity and Variance for Heterogeneous Federated Learning [5.9330433627374815]
フェデレーション学習は、広く分散されたデータでニューラルネットワークをトレーニングするための有望なフレームワークである。
最近の研究によると、ネットワークの最終層が局所バイアスの傾向が最も大きいためである。
凍結重量が一定の特異値をもたらすという観測によって動機付けられた重みにSVDを適用して分類器の訓練力学を考察する。
論文 参考訳(メタデータ) (2024-02-27T15:53:15Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Uncertainty-Aware Bootstrap Learning for Joint Extraction on
Distantly-Supervised Data [36.54640096189285]
ブートストラップ学習は、インスタンスの不確実性が高ければ高いほど、モデルの信頼性は基礎的な真実と矛盾する可能性が高いという直感によって動機付けられます。
まず、まずインスタンスレベルのデータ不確実性を調べて、信頼度の高い最初の例を作成します。
ブートストラップ学習において,ノイズラベルが生成するモデル間不確実性を軽減するために,正規化器としての自己認識を提案する。
論文 参考訳(メタデータ) (2023-05-05T20:06:11Z) - Implicit Counterfactual Data Augmentation for Robust Learning [24.795542869249154]
本研究では, 突発的相関を除去し, 安定した予測を行うために, インプリシト・カウンセショナル・データ拡張法を提案する。
画像とテキストのデータセットをカバーする様々なバイアス付き学習シナリオで実験が行われてきた。
論文 参考訳(メタデータ) (2023-04-26T10:36:40Z) - DUDES: Deep Uncertainty Distillation using Ensembles for Semantic
Segmentation [11.099838952805325]
予測の不確実性の定量化は、そのようなアプリケーションにディープニューラルネットワークを使用するための、有望な取り組みである。
本稿では,アンサンブルを用いた深部不確実性蒸留(DuDES)と呼ばれる,効率的かつ確実な不確実性評価手法を提案する。
DUDESはディープ・アンサンブル(Deep Ensemble)による学生-教師の蒸留を適用し、予測の不確かさを1つの前方パスで正確に推定する。
論文 参考訳(メタデータ) (2023-03-17T08:56:27Z) - BLISS: Robust Sequence-to-Sequence Learning via Self-Supervised Input
Representation [92.75908003533736]
本稿では,自己教師型入力表現を用いたフレームワークレベルの頑健なシーケンス・ツー・シーケンス学習手法BLISSを提案する。
我々は,機械翻訳,文法的誤り訂正,テキスト要約など,BLISSの様々なタスクにおける有効性を検証するための総合的な実験を行った。
論文 参考訳(メタデータ) (2022-04-16T16:19:47Z) - Scale-Equivalent Distillation for Semi-Supervised Object Detection [57.59525453301374]
近年のSemi-Supervised Object Detection (SS-OD) 法は主に自己学習に基づいており、教師モデルにより、ラベルなしデータを監視信号としてハードな擬似ラベルを生成する。
実験結果から,これらの手法が直面する課題を分析した。
本稿では,大規模オブジェクトサイズの分散とクラス不均衡に頑健な簡易かつ効果的なエンド・ツー・エンド知識蒸留フレームワークであるSED(Scale-Equivalent Distillation)を提案する。
論文 参考訳(メタデータ) (2022-03-23T07:33:37Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。