論文の概要: Transformer Uncertainty Estimation with Hierarchical Stochastic
Attention
- arxiv url: http://arxiv.org/abs/2112.13776v1
- Date: Mon, 27 Dec 2021 16:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 14:35:05.213194
- Title: Transformer Uncertainty Estimation with Hierarchical Stochastic
Attention
- Title(参考訳): 階層的確率的注意による変圧器の不確かさ推定
- Authors: Jiahuan Pei, Cheng Wang, Gy\"orgy Szarvas
- Abstract要約: 本稿では,変圧器に不確実性推定機能を持たせるための新しい手法を提案する。
これは、価値と学習可能なセントロイドのセットに付随する階層的な自己注意を学ぶことで達成される。
我々は、ドメイン内(ID)とドメイン外(OOD)の両方のデータセットを用いて、2つのテキスト分類タスクでモデルを実証的に評価する。
- 参考スコア(独自算出の注目度): 8.95459272947319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers are state-of-the-art in a wide range of NLP tasks and have also
been applied to many real-world products. Understanding the reliability and
certainty of transformer model predictions is crucial for building trustable
machine learning applications, e.g., medical diagnosis. Although many recent
transformer extensions have been proposed, the study of the uncertainty
estimation of transformer models is under-explored. In this work, we propose a
novel way to enable transformers to have the capability of uncertainty
estimation and, meanwhile, retain the original predictive performance. This is
achieved by learning a hierarchical stochastic self-attention that attends to
values and a set of learnable centroids, respectively. Then new attention heads
are formed with a mixture of sampled centroids using the Gumbel-Softmax trick.
We theoretically show that the self-attention approximation by sampling from a
Gumbel distribution is upper bounded. We empirically evaluate our model on two
text classification tasks with both in-domain (ID) and out-of-domain (OOD)
datasets. The experimental results demonstrate that our approach: (1) achieves
the best predictive performance and uncertainty trade-off among compared
methods; (2) exhibits very competitive (in most cases, improved) predictive
performance on ID datasets; (3) is on par with Monte Carlo dropout and ensemble
methods in uncertainty estimation on OOD datasets.
- Abstract(参考訳): トランスフォーマーは幅広いnlpタスクにおいて最先端であり、多くの現実世界製品にも適用されている。
トランスフォーマーモデル予測の信頼性と確実性を理解することは、信頼できる機械学習アプリケーションを構築するために重要である。
近年,多くの変圧器拡張が提案されているが,変圧器モデルの不確実性評価は未検討である。
本研究では, トランスフォーマーが不確実性推定能力を持ち, かつ, 当初の予測性能を維持するための新しい手法を提案する。
これは、それぞれ値と学習可能なセントロイドの集合に対応する階層的確率的自己認識を学習することで達成される。
次に、Gumbel-Softmaxトリックを用いて、サンプルのセントロイドを混合した新しい注目ヘッドを形成する。
ガムベル分布からのサンプリングによる自己アテンション近似が上界的であることを理論的に示す。
我々は、ドメイン内(ID)とドメイン外(OOD)の両方のデータセットを用いて、2つのテキスト分類タスクでモデルを実証的に評価する。
その結果,(1)比較手法の最適予測性能と不確実性トレードオフを達成し,(2)idデータセット上で非常に競合性の高い(ほとんどの場合は改善された)予測性能を示すこと,(3)oodデータセットにおける不確実性推定においてモンテカルロドロップアウトやアンサンブル法と同等であることがわかった。
関連論文リスト
- Boosted Control Functions [10.503777692702952]
本研究の目的は,因果効果推定と予測タスクのギャップを埋めることである。
我々は,機械学習の分布場と同時方程式モデル,およびエコノメティクスの制御関数との新たな接続を確立する。
このフレームワーク内では、予測モデルに対する不変性の強い概念を提案し、それを既存の(ウィーカー)バージョンと比較する。
論文 参考訳(メタデータ) (2023-10-09T15:43:46Z) - Multiclass Alignment of Confidence and Certainty for Network Calibration [10.15706847741555]
最近の研究では、ディープニューラルネットワーク(DNN)が過信的な予測を行う傾向があることが示されている。
予測平均信頼度と予測確実性(MACC)の多クラスアライメントとして知られる簡易なプラグアンドプレイ補助損失を特徴とする列車時キャリブレーション法を提案する。
本手法は,領域内および領域外両方のキャリブレーション性能を実現する。
論文 参考訳(メタデータ) (2023-09-06T00:56:24Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Birds of a Feather Trust Together: Knowing When to Trust a Classifier
via Adaptive Neighborhood Aggregation [30.34223543030105]
我々は、NeighborAggがアダプティブ近隣アグリゲーションを介して2つの重要な情報を利用する方法を示す。
また, 誤り検出の密接な関連課題へのアプローチを拡張し, 偽陰性境界に対する理論的カバレッジを保証する。
論文 参考訳(メタデータ) (2022-11-29T18:43:15Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - Robust Validation: Confident Predictions Even When Distributions Shift [19.327409270934474]
本稿では,モデルが点予測ではなく,その予測に対して不確実な推定を行うような,頑健な予測推論の手順について述べる。
本稿では, トレーニング集団の周囲に$f$-divergence のボールを用いて, 任意のテスト分布に対して適切なカバレッジレベルを与える予測セットを生成する手法を提案する。
私たちの方法論の重要な構成要素は、将来のデータシフトの量を見積り、それに対する堅牢性を構築することです。
論文 参考訳(メタデータ) (2020-08-10T17:09:16Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。