論文の概要: Bayesian Attention Belief Networks
- arxiv url: http://arxiv.org/abs/2106.05251v1
- Date: Wed, 9 Jun 2021 17:46:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 16:00:02.308743
- Title: Bayesian Attention Belief Networks
- Title(参考訳): Bayesian Attention Belief Networks
- Authors: Shujian Zhang, Xinjie Fan, Bo Chen, Mingyuan Zhou
- Abstract要約: 注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。
本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。
提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 59.183311769616466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention-based neural networks have achieved state-of-the-art results on a
wide range of tasks. Most such models use deterministic attention while
stochastic attention is less explored due to the optimization difficulties or
complicated model design. This paper introduces Bayesian attention belief
networks, which construct a decoder network by modeling unnormalized attention
weights with a hierarchy of gamma distributions, and an encoder network by
stacking Weibull distributions with a deterministic-upward-stochastic-downward
structure to approximate the posterior. The resulting auto-encoding networks
can be optimized in a differentiable way with a variational lower bound. It is
simple to convert any models with deterministic attention, including pretrained
ones, to the proposed Bayesian attention belief networks. On a variety of
language understanding tasks, we show that our method outperforms deterministic
attention and state-of-the-art stochastic attention in accuracy, uncertainty
estimation, generalization across domains, and robustness to adversarial
attacks. We further demonstrate the general applicability of our method on
neural machine translation and visual question answering, showing great
potential of incorporating our method into various attention-related tasks.
- Abstract(参考訳): 注意に基づくニューラルネットワークは、幅広いタスクで最先端の結果を得ています。
このようなモデルの多くは決定論的注意を必要とするが、確率的注意は最適化の困難さや複雑なモデル設計のためにあまり探求されない。
本稿では,非正規化注意重みをガンマ分布の階層構造でモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークと,決定論的-上向き-下向き構造でワイブル分布を積み重ねたエンコーダネットワークを紹介する。
結果のオートエンコーディングネットワークは、変分下界を持つ微分可能な方法で最適化することができる。
事前訓練されたモデルを含む決定論的注意を持つ任意のモデルを、提案されているベイズ注意信念ネットワークに変換するのは簡単である。
様々な言語理解タスクにおいて,本手法は,精度,不確実性推定,ドメイン間の一般化,敵の攻撃に対する堅牢性において,決定論的注意と最先端の確率的注意を上回っていることを示す。
さらに,本手法がニューラルマシン翻訳および視覚的質問応答に適用可能であることを示し,本手法を様々な注意課題に組み込むことの可能性を示した。
関連論文リスト
- GASE: Graph Attention Sampling with Edges Fusion for Solving Vehicle Routing Problems [6.084414764415137]
車両のルーティング問題を解決するためにEdges Fusionフレームワークを用いた適応型グラフ注意サンプリングを提案する。
提案手法は,既存の手法を2.08%-6.23%上回り,より強力な一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-21T03:33:07Z) - Invariant Causal Mechanisms through Distribution Matching [86.07327840293894]
本研究では、因果的視点と不変表現を学習するための新しいアルゴリズムを提供する。
実験により,このアルゴリズムは様々なタスク群でうまく動作し,特にドメインの一般化における最先端のパフォーマンスを観察する。
論文 参考訳(メタデータ) (2022-06-23T12:06:54Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - Bayesian Attention Modules [65.52970388117923]
実装や最適化が容易な,スケーラブルな注目バージョンを提案する。
本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-20T20:30:55Z) - Gaussian Constrained Attention Network for Scene Text Recognition [16.485898019983797]
既存の注意機構は注意拡散の問題に直面しており、モデルが特定の特徴領域に焦点を絞らない可能性がある。
本稿では,新しいガウス制約リファインメントモジュールを組み込んだ2次元アテンションベース手法を提案する。
このように、注意重みはより集中し、注意に基づく認識ネットワークはより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-10-19T01:55:30Z) - Bayesian Deep Learning and a Probabilistic Perspective of Generalization [56.69671152009899]
ディープアンサンブルはベイズ辺化を近似する有効なメカニズムであることを示す。
また,アトラクションの流域内での辺縁化により,予測分布をさらに改善する関連手法を提案する。
論文 参考訳(メタデータ) (2020-02-20T15:13:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。