論文の概要: BayesFormer: Transformer with Uncertainty Estimation
- arxiv url: http://arxiv.org/abs/2206.00826v1
- Date: Thu, 2 Jun 2022 01:54:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 12:56:20.059500
- Title: BayesFormer: Transformer with Uncertainty Estimation
- Title(参考訳): bayesformer: 不確かさを推定するトランスフォーマー
- Authors: Karthik Abinav Sankararaman and Sinong Wang and Han Fang
- Abstract要約: ベイズ理論によって設計されたドロップアウトを持つトランスフォーマーモデルBayesFormerを紹介する。
我々は,言語モデリングと分類,長文理解,機械翻訳,能動的学習のための獲得機能など,ボード全体の改良点を示す。
- 参考スコア(独自算出の注目度): 31.206243748162553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer has become ubiquitous due to its dominant performance in various
NLP and image processing tasks. However, it lacks understanding of how to
generate mathematically grounded uncertainty estimates for transformer
architectures. Models equipped with such uncertainty estimates can typically
improve predictive performance, make networks robust, avoid over-fitting and
used as acquisition function in active learning. In this paper, we introduce
BayesFormer, a Transformer model with dropouts designed by Bayesian theory. We
proposed a new theoretical framework to extend the approximate variational
inference-based dropout to Transformer-based architectures. Through extensive
experiments, we validate the proposed architecture in four paradigms and show
improvements across the board: language modeling and classification,
long-sequence understanding, machine translation and acquisition function for
active learning.
- Abstract(参考訳): トランスフォーマーは、様々なnlpおよび画像処理タスクにおいて支配的な性能のため、ユビキタスになった。
しかし、変圧器アーキテクチャの数学的根拠に基づく不確実性推定を生成する方法の理解に欠ける。
このような不確実性推定を備えたモデルは、一般的に予測性能を改善し、ネットワークを堅牢にし、過剰フィッティングを避け、アクティブラーニングにおける獲得関数として使用できる。
本稿では,ベイズ理論によって設計されたドロップアウトを持つトランスフォーマーモデルBayesFormerを紹介する。
我々は変分推論に基づくドロップアウトをTransformerベースのアーキテクチャに拡張する新しい理論フレームワークを提案した。
広範な実験を通じて,提案するアーキテクチャを4つのパラダイムで検証し,言語モデリングと分類,長期理解,機械翻訳,アクティブラーニングのための獲得関数などの改善点を示す。
関連論文リスト
- Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Enforcing Interpretability in Time Series Transformers: A Concept Bottleneck Framework [2.8470354623829577]
本研究では,時系列変換器の解釈可能性を実現するための概念ボトルネックモデルに基づくフレームワークを開発する。
我々は、事前定義された解釈可能な概念に似た表現を開発するようモデルに促すために、トレーニング対象を変更する。
モデルの性能はほとんど影響を受けていないが、モデルは解釈可能性を大幅に改善している。
論文 参考訳(メタデータ) (2024-10-08T14:22:40Z) - Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations [75.14793516745374]
中間学習によりトランスフォーマーの構造的帰納バイアスを強化することを提案する。
実験の結果,チャンキングなどの構文的タスクのわずかな学習に有効であることが確認された。
分析の結果,中間的事前学習は,どのトークンにシナティクス変換を適用する必要があるかを追尾する注意を喚起することが明らかとなった。
論文 参考訳(メタデータ) (2024-07-05T14:29:44Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Affine transformation estimation improves visual self-supervised
learning [4.40560654491339]
本研究では,アフィン変換の予測表現を制約するモジュールを追加することにより,学習プロセスの性能と効率が向上することを示す。
我々は、様々な近代的な自己監督モデルで実験を行い、全てのケースで性能改善を見る。
論文 参考訳(メタデータ) (2024-02-14T10:32:58Z) - A Meta-Learning Perspective on Transformers for Causal Language Modeling [17.293733942245154]
Transformerアーキテクチャは、大規模な因果言語モデルの開発において顕著になっている。
因果言語モデリングタスクのトレーニングにおいて,トランスフォーマーアーキテクチャのメタラーニングビューを確立する。
内部最適化では,Transformerに基づく因果言語モデルにおいて,学習トークン表現のノルムの特別な特徴を発見し,理論的に解析する。
論文 参考訳(メタデータ) (2023-10-09T17:27:36Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - A Cognitive Study on Semantic Similarity Analysis of Large Corpora: A
Transformer-based Approach [0.0]
我々は,従来の技術とトランスフォーマー技術の両方を用いて,米国特許法とPhrase Matchingデータセットのセマンティック類似性解析とモデリングを行う。
実験の結果,従来の手法と比較して手法の性能が向上し,平均ピアソン相関スコアは0.79。
論文 参考訳(メタデータ) (2022-07-24T11:06:56Z) - Transformer Grammars: Augmenting Transformer Language Models with
Syntactic Inductive Biases at Scale [31.293175512404172]
Transformer Grammarsは、Transformerの表現力、スケーラビリティ、強力なパフォーマンスを組み合わせたTransformer言語モデルのクラスです。
また, Transformer Grammars は, 構文に敏感な言語モデリング評価指標において, 各種の強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2022-03-01T17:22:31Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。