論文の概要: Calibrating Transformers via Sparse Gaussian Processes
- arxiv url: http://arxiv.org/abs/2303.02444v1
- Date: Sat, 4 Mar 2023 16:04:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 19:38:35.908284
- Title: Calibrating Transformers via Sparse Gaussian Processes
- Title(参考訳): スパースガウス過程による変圧器の校正
- Authors: Wenlong Chen, Yingzhen Li
- Abstract要約: 本稿では,マルチヘッドアテンションブロック(MHA)の出力空間に直接ベイズ推論を行い,その不確実性を校正するスパースガウスプロセスアテンション(SGPA)を提案する。
SGPAベースのトランスフォーマーは、テキスト、画像、グラフ上の一連の予測タスクにおいて、競合予測精度を達成すると同時に、分布内キャリブレーションと分布外ロバストネスと検出の両方を顕著に改善する。
- 参考スコア(独自算出の注目度): 22.435234053779933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer models have achieved profound success in prediction tasks in a
wide range of applications in natural language processing, speech recognition
and computer vision. Extending Transformer's success to safety-critical domains
requires calibrated uncertainty estimation which remains under-explored. To
address this, we propose Sparse Gaussian Process attention (SGPA), which
performs Bayesian inference directly in the output space of multi-head
attention blocks (MHAs) in transformer to calibrate its uncertainty. It
replaces the scaled dot-product operation with a valid symmetric kernel and
uses sparse Gaussian processes (SGP) techniques to approximate the posterior
processes of MHA outputs. Empirically, on a suite of prediction tasks on text,
images and graphs, SGPA-based Transformers achieve competitive predictive
accuracy, while noticeably improving both in-distribution calibration and
out-of-distribution robustness and detection.
- Abstract(参考訳): トランスフォーマーモデルは、自然言語処理、音声認識、コンピュータビジョンにおける幅広い応用において、予測タスクにおいて大きな成功を収めている。
トランスフォーマーの成功を安全クリティカルな領域に拡張するには、不確かさの校正が必要となる。
そこで本研究では,マルチヘッドアテンションブロック(mhas)の出力空間に直接ベイズ推定を行い,その不確かさを校正するsparse gaussian process attention (sgpa)を提案する。
スケールされたドット積演算を有効な対称カーネルに置き換え、スパースガウス過程(SGP)技術を用いてMHA出力の後方過程を近似する。
SGPAベースのトランスフォーマーは、テキスト、画像、グラフ上の一連の予測タスクにおいて、競合予測精度を達成すると同時に、分布内キャリブレーションと分布外ロバストネスと検出の両方を顕著に改善する。
関連論文リスト
- Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation [49.827306773992376]
連続的テスト時間適応(CTTA)は、ソース事前学習モデルから目標分布の連続的な変化に移行するために提案される。
提案手法は,CTTAタスクの分類とセグメンテーションの両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T15:34:52Z) - Meta-learning to Calibrate Gaussian Processes with Deep Kernels for
Regression Uncertainty Estimation [43.23399636191726]
本稿では,遅延不確実性推定性能を改善するために,深層カーネルGPの校正のためのメタラーニング手法を提案する。
提案手法は,テスト期待校正誤差を最小限に抑えて,様々なタスクのデータを用いて不確実性を校正する方法をメタ学習する。
実験により,提案手法は高い回帰性能を維持しながら不確実性推定性能を向上させることを示した。
論文 参考訳(メタデータ) (2023-12-13T07:58:47Z) - Cal-DETR: Calibrated Detection Transformer [67.75361289429013]
本稿では,Deformable-DETR,UP-DETR,DINOのキャリブレーション検出トランス(Cal-DETR)のメカニズムを提案する。
我々は、不確実性を利用してクラスロジットを変調する不確実性誘導ロジット変調機構を開発する。
その結果、Cal-DETRは、ドメイン内およびドメイン外の両方を校正する競合する列車時間法に対して有効であることがわかった。
論文 参考訳(メタデータ) (2023-11-06T22:13:10Z) - Optimizing a Transformer-based network for a deep learning seismic
processing workflow [0.0]
StorSeismicは、様々な地震処理タスクに対応するためにTransformerをベースとした最近導入されたモデルである。
微調整作業における事前学習と競争の速さを観察し,バニラモデルと比較してトレーニングすべきパラメータを少なくする。
論文 参考訳(メタデータ) (2023-08-09T07:11:42Z) - Sharp Calibrated Gaussian Processes [58.94710279601622]
キャリブレーションされたモデルを設計するための最先端のアプローチは、ガウス過程の後方分散を膨らませることに依存している。
本稿では,バニラガウス過程の後方分散にインスパイアされた計算を用いて,予測量子化を生成するキャリブレーション手法を提案する。
我々のアプローチは合理的な仮定の下で校正されたモデルが得られることを示す。
論文 参考訳(メタデータ) (2023-02-23T12:17:36Z) - Scalable Bayesian Transformed Gaussian Processes [10.33253403416662]
ベイズ変換ガウシアン過程(BTG)モデルは、ワープされたガウシアン過程(WGP)と完全に相反するベイズ変換ガウシアン過程(BTG)モデルである。
本稿では,BTGを用いた計算の原理的,高速な手法を提案する。
我々のフレームワークは、高速モデル予測とモデル選択の両方を可能にするために、二重スパース二次規則、厳密な量子境界、ランク1行列代数を使用する。
論文 参考訳(メタデータ) (2022-10-20T02:45:10Z) - Optimization of Annealed Importance Sampling Hyperparameters [77.34726150561087]
Annealed Importance Smpling (AIS) は、深層生成モデルの難易度を推定するために使われる一般的なアルゴリズムである。
本稿では、フレキシブルな中間分布を持つパラメータAISプロセスを提案し、サンプリングに少ないステップを使用するようにブリッジング分布を最適化する。
我々は, 最適化AISの性能評価を行い, 深部生成モデルの限界推定を行い, 他の推定値と比較した。
論文 参考訳(メタデータ) (2022-09-27T07:58:25Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - Expert-Guided Symmetry Detection in Markov Decision Processes [0.0]
MDP力学が不変である状態-作用空間の変換の存在を検出することを目的としたパラダイムを提案する。
その結果, 検出した対称性を用いて得られたデータを用いてデータセットを拡張した場合, モデル分布シフトが小さくなることがわかった。
論文 参考訳(メタデータ) (2021-11-19T16:12:30Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。