論文の概要: Bayesian Attention Modules
- arxiv url: http://arxiv.org/abs/2010.10604v1
- Date: Tue, 20 Oct 2020 20:30:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 05:35:58.625207
- Title: Bayesian Attention Modules
- Title(参考訳): ベイズ注意加群
- Authors: Xinjie Fan and Shujian Zhang and Bo Chen and Mingyuan Zhou
- Abstract要約: 実装や最適化が容易な,スケーラブルな注目バージョンを提案する。
本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
- 参考スコア(独自算出の注目度): 65.52970388117923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention modules, as simple and effective tools, have not only enabled deep
neural networks to achieve state-of-the-art results in many domains, but also
enhanced their interpretability. Most current models use deterministic
attention modules due to their simplicity and ease of optimization. Stochastic
counterparts, on the other hand, are less popular despite their potential
benefits. The main reason is that stochastic attention often introduces
optimization issues or requires significant model changes. In this paper, we
propose a scalable stochastic version of attention that is easy to implement
and optimize. We construct simplex-constrained attention distributions by
normalizing reparameterizable distributions, making the training process
differentiable. We learn their parameters in a Bayesian framework where a
data-dependent prior is introduced for regularization. We apply the proposed
stochastic attention modules to various attention-based models, with
applications to graph node classification, visual question answering, image
captioning, machine translation, and language understanding. Our experiments
show the proposed method brings consistent improvements over the corresponding
baselines.
- Abstract(参考訳): シンプルで効果的なツールであるアテンションモジュールは、ディープニューラルネットワークを多くのドメインで最先端の結果を達成するだけでなく、その解釈可能性も強化した。
現在のモデルのほとんどは、シンプルさと最適化の容易さのために決定論的アテンションモジュールを使用している。
一方、確率的な比較は、潜在的に利益があるにもかかわらず、あまり人気がない。
主な理由は、確率的注意がしばしば最適化の問題や大きなモデル変更を必要とするためである。
本稿では,実装や最適化が容易な,スケーラブルな確率型アテンションを提案する。
我々は,再パラメータ化可能な分布を正規化することにより,単純な注意分布を構築する。
我々は、正規化のためにデータ依存の事前を導入するベイズフレームワークでそれらのパラメータを学習する。
提案する確率的注意モジュールを様々な注意に基づくモデルに適用し,グラフノード分類,視覚的質問応答,画像キャプション,機械翻訳,言語理解に適用する。
本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
関連論文リスト
- POUF: Prompt-oriented unsupervised fine-tuning for large pre-trained
models [62.23255433487586]
モデルに微調整を施したり、ラベルのないターゲットデータにプロンプトを施したりするための教師なしの微調整フレームワークを提案する。
本稿では,プロンプトとターゲットデータから抽出した離散分布を整列させて,言語拡張視覚とマスキング言語モデルの両方に適用する方法を示す。
論文 参考訳(メタデータ) (2023-04-29T22:05:22Z) - DiGA: Distil to Generalize and then Adapt for Domain Adaptive Semantic
Segmentation [6.395550661144153]
ドメイン適応型セマンティックセグメンテーション法は、ウォームアップと自己学習段階からなるステージワイズトレーニングを一般的に利用する。
本稿では,新しい対称知識蒸留モジュールにより,ウォームアップ段階における敵の訓練を置き換えることを提案する。
自己学習段階において、上記しきい値問題を緩和するために、しきい値のない動的擬似ラベル選択機構を提案する。
論文 参考訳(メタデータ) (2023-04-05T04:32:02Z) - An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。
既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。
本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T06:50:27Z) - Invariant Causal Mechanisms through Distribution Matching [86.07327840293894]
本研究では、因果的視点と不変表現を学習するための新しいアルゴリズムを提供する。
実験により,このアルゴリズムは様々なタスク群でうまく動作し,特にドメインの一般化における最先端のパフォーマンスを観察する。
論文 参考訳(メタデータ) (2022-06-23T12:06:54Z) - Bayesian Graph Contrastive Learning [55.36652660268726]
本稿では,ランダムな拡張がエンコーダにつながることを示すグラフコントラスト学習手法の新たな視点を提案する。
提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。
いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2021-12-15T01:45:32Z) - Probabilistic Attention for Interactive Segmentation [0.0]
変圧器における標準的な点積注意は,最大Aポストエリオーリ(MAP)推論の特別な場合であることを示す。
提案手法は,キーおよび値モデルパラメータのオンライン適応に期待値最大化アルゴリズムを用いることを提案する。
論文 参考訳(メタデータ) (2021-06-23T00:19:43Z) - Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。
本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。
提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-09T17:46:22Z) - Improve the Interpretability of Attention: A Fast, Accurate, and
Interpretable High-Resolution Attention Model [6.906621279967867]
そこで本稿では,タスク関連情報を取り込むための,非線形代表非パラメトリックアテンション(BR-NPA)戦略を提案する。
提案したモデルは、分類が関与する様々な近代的な深層モデルに容易に適応できる。
また、通常のニューラルアテンションモジュールよりも正確で高速で、メモリフットプリントも小さい。
論文 参考訳(メタデータ) (2021-06-04T15:57:37Z) - More Is More -- Narrowing the Generalization Gap by Adding
Classification Heads [8.883733362171032]
我々は「TransNet」と呼ばれる入力変換に基づく既存のニューラルネットワークモデルのためのアーキテクチャ拡張を導入する。
私たちのモデルは、トレーニング時間のみに使用でき、予測のために刈り取られ、結果としてベースモデルと同等のアーキテクチャになります。
論文 参考訳(メタデータ) (2021-02-09T16:30:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。