論文の概要: Pathologies in priors and inference for Bayesian transformers
- arxiv url: http://arxiv.org/abs/2110.04020v1
- Date: Fri, 8 Oct 2021 10:35:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 20:53:29.963440
- Title: Pathologies in priors and inference for Bayesian transformers
- Title(参考訳): ベイズ変圧器の先行と推論の病理
- Authors: Tristan Cinquin, Alexander Immer, Max Horn, Vincent Fortuin
- Abstract要約: ベイズ推定を用いた予測不確実性の観点からトランスフォーマーモデルを改善する試みは成功していない。
変換器の重み空間推定は, 近似後部に関係なくうまく動作しないことがわかった。
本稿では,ディリクレ分布の暗黙的再パラメータ化に基づく新しい手法を提案する。
- 参考スコア(独自算出の注目度): 71.97183475225215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, the transformer has established itself as a workhorse in
many applications ranging from natural language processing to reinforcement
learning. Similarly, Bayesian deep learning has become the gold-standard for
uncertainty estimation in safety-critical applications, where robustness and
calibration are crucial. Surprisingly, no successful attempts to improve
transformer models in terms of predictive uncertainty using Bayesian inference
exist. In this work, we study this curiously underpopulated area of Bayesian
transformers. We find that weight-space inference in transformers does not work
well, regardless of the approximate posterior. We also find that the prior is
at least partially at fault, but that it is very hard to find well-specified
weight priors for these models. We hypothesize that these problems stem from
the complexity of obtaining a meaningful mapping from weight-space to
function-space distributions in the transformer. Therefore, moving closer to
function-space, we propose a novel method based on the implicit
reparameterization of the Dirichlet distribution to apply variational inference
directly to the attention weights. We find that this proposed method performs
competitively with our baselines.
- Abstract(参考訳): 近年、トランスフォーマーは自然言語処理から強化学習まで、多くの応用においてワークホースとしての地位を確立している。
同様に、ベイズ深層学習は、ロバスト性とキャリブレーションが重要である安全-クリティカル応用における不確実性推定の金標準となっている。
驚くべきことに、ベイズ推定を用いた予測の不確実性の観点からトランスフォーマーモデルを改善する試みは成功しなかった。
本研究では,このベイズ変圧器の人口密度の低い領域について検討する。
変換器の重み空間推定は, 近似後部に関係なくうまく動作しないことがわかった。
また、前者は少なくとも部分的には欠点があるが、これらのモデルに対して明確な重み付け先を見つけることは極めて困難である。
これらの問題は、重み空間からトランスフォーマー内の関数空間分布への有意義なマッピングを得ることの複雑さに起因していると仮定する。
そこで,関数空間に近づくことで,ディリクレ分布の暗黙的再パラメータ化に基づく新しい手法を提案する。
その結果,提案手法はベースラインと競合することがわかった。
関連論文リスト
- Bayes without Underfitting: Fully Correlated Deep Learning Posteriors via Alternating Projections [11.893371164199312]
ベイジアン深層学習は、ベイジアン予測が単純な点推定よりも正確でないように、不適合であることが多い。
我々はベイズ近似を null 空間内に構築することを提案し、したがってベイズ予測が不適切でないことを保証した。
実験的な評価は、アプローチが2800万のパラメータを持つ視覚変換器を含む大きなモデルにスケールすることを示しています。
論文 参考訳(メタデータ) (2024-10-22T11:15:07Z) - Setting the Record Straight on Transformer Oversmoothing [35.125957267464756]
モデル深度が増加するにつれて、トランスフォーマーは過度に滑らかになる。
平滑化挙動は値と射影重みの固有スペクトルに依存することを示す。
解析により,トランスフォーマー更新方程式の重み付けをパラメータ化して平滑化挙動に影響を及ぼす簡単な方法が明らかになった。
論文 参考訳(メタデータ) (2024-01-09T01:19:03Z) - All Roads Lead to Rome? Exploring the Invariance of Transformers'
Representations [69.3461199976959]
本稿では, ビジェクション仮説を学習するために, 非可逆ニューラルネットワーク BERT-INN に基づくモデルを提案する。
BERT-INNの利点は理論上も広範な実験を通じても明らかである。
論文 参考訳(メタデータ) (2023-05-23T22:30:43Z) - Latent Positional Information is in the Self-Attention Variance of
Transformer Language Models Without Positional Embeddings [68.61185138897312]
凍結変圧器言語モデルでは,自己意図の分散を縮小することにより,強い位置情報を符号化する。
本研究は, 位置埋め込みを廃止する決定を正当化し, トランスフォーマー言語モデルのより効率的な事前学習を容易にすることに役立つ。
論文 参考訳(メタデータ) (2023-05-23T01:03:40Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - On Isotropy Calibration of Transformers [10.294618771570985]
変圧器モデルの埋め込み空間の研究は、文脈表現の分布が非常に異方性であることを示唆している。
最近の研究では、変圧器の埋め込み空間が局所等方性であることが示されており、これらのモデルは既にその埋め込み空間の表現能力を利用することができることを示唆している。
我々は, 変圧器の等方性校正のための最先端手法の実証評価を行い, モデルとタスク間で一貫した改善が得られないことを見出した。
論文 参考訳(メタデータ) (2021-09-27T18:54:10Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - The FMRIB Variational Bayesian Inference Tutorial II: Stochastic
Variational Bayes [1.827510863075184]
このチュートリアルは、オリジナルのFMRIB Variational Bayesチュートリアルを再考する。
この新しいアプローチは、機械学習アルゴリズムに適用された計算方法に多くの類似性を持ち、恩恵を受けている。
論文 参考訳(メタデータ) (2020-07-03T11:31:52Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。