論文の概要: Bayesian Attention Modules
- arxiv url: http://arxiv.org/abs/2010.10604v1
- Date: Tue, 20 Oct 2020 20:30:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 05:35:58.625207
- Title: Bayesian Attention Modules
- Title(参考訳): ベイズ注意加群
- Authors: Xinjie Fan and Shujian Zhang and Bo Chen and Mingyuan Zhou
- Abstract要約: 実装や最適化が容易な,スケーラブルな注目バージョンを提案する。
本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
- 参考スコア(独自算出の注目度): 65.52970388117923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention modules, as simple and effective tools, have not only enabled deep
neural networks to achieve state-of-the-art results in many domains, but also
enhanced their interpretability. Most current models use deterministic
attention modules due to their simplicity and ease of optimization. Stochastic
counterparts, on the other hand, are less popular despite their potential
benefits. The main reason is that stochastic attention often introduces
optimization issues or requires significant model changes. In this paper, we
propose a scalable stochastic version of attention that is easy to implement
and optimize. We construct simplex-constrained attention distributions by
normalizing reparameterizable distributions, making the training process
differentiable. We learn their parameters in a Bayesian framework where a
data-dependent prior is introduced for regularization. We apply the proposed
stochastic attention modules to various attention-based models, with
applications to graph node classification, visual question answering, image
captioning, machine translation, and language understanding. Our experiments
show the proposed method brings consistent improvements over the corresponding
baselines.
- Abstract(参考訳): シンプルで効果的なツールであるアテンションモジュールは、ディープニューラルネットワークを多くのドメインで最先端の結果を達成するだけでなく、その解釈可能性も強化した。
現在のモデルのほとんどは、シンプルさと最適化の容易さのために決定論的アテンションモジュールを使用している。
一方、確率的な比較は、潜在的に利益があるにもかかわらず、あまり人気がない。
主な理由は、確率的注意がしばしば最適化の問題や大きなモデル変更を必要とするためである。
本稿では,実装や最適化が容易な,スケーラブルな確率型アテンションを提案する。
我々は,再パラメータ化可能な分布を正規化することにより,単純な注意分布を構築する。
我々は、正規化のためにデータ依存の事前を導入するベイズフレームワークでそれらのパラメータを学習する。
提案する確率的注意モジュールを様々な注意に基づくモデルに適用し,グラフノード分類,視覚的質問応答,画像キャプション,機械翻訳,言語理解に適用する。
本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
関連論文リスト
- Adjusting Pretrained Backbones for Performativity [34.390793811659556]
本稿では,事前学習したバックボーンをモジュラー方式で演奏性に適応させる新しい手法を提案する。
再学習軌道に沿った損失を減らし、候補モデルの中から効果的に選択し、性能劣化を予測できることを示す。
論文 参考訳(メタデータ) (2024-10-06T14:41:13Z) - iSeg: An Iterative Refinement-based Framework for Training-free Segmentation [85.58324416386375]
本稿では,自己注意マップを用いた横断注意マップの繰り返し精錬に関する実験的検討を行った。
トレーニング不要セグメンテーションのための効果的な反復改良フレームワークiSegを提案する。
提案したiSegは,mIoUの3.8%の絶対ゲインを達成している。
論文 参考訳(メタデータ) (2024-09-05T03:07:26Z) - Patch-Prompt Aligned Bayesian Prompt Tuning for Vision-Language Models [48.77653835765705]
そこでは,まず下位分布から潜在ベクトルをサンプリングし,次に軽量な生成モデルを用いてラベル固有のプロンプトを階層的に生成する。
提案手法の有効性は,少数ショット画像認識,ベース・ツー・ニュージェネリゼーション,データセット転送学習,ドメインシフトの4つのタスクで評価する。
論文 参考訳(メタデータ) (2023-03-16T06:09:15Z) - An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。
既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。
本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T06:50:27Z) - Bayesian Graph Contrastive Learning [55.36652660268726]
本稿では,ランダムな拡張がエンコーダにつながることを示すグラフコントラスト学習手法の新たな視点を提案する。
提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。
いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2021-12-15T01:45:32Z) - Probabilistic Attention for Interactive Segmentation [0.0]
変圧器における標準的な点積注意は,最大Aポストエリオーリ(MAP)推論の特別な場合であることを示す。
提案手法は,キーおよび値モデルパラメータのオンライン適応に期待値最大化アルゴリズムを用いることを提案する。
論文 参考訳(メタデータ) (2021-06-23T00:19:43Z) - Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。
本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。
提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-09T17:46:22Z) - More Is More -- Narrowing the Generalization Gap by Adding
Classification Heads [8.883733362171032]
我々は「TransNet」と呼ばれる入力変換に基づく既存のニューラルネットワークモデルのためのアーキテクチャ拡張を導入する。
私たちのモデルは、トレーニング時間のみに使用でき、予測のために刈り取られ、結果としてベースモデルと同等のアーキテクチャになります。
論文 参考訳(メタデータ) (2021-02-09T16:30:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。