Fugu-MT 論文翻訳(概要): Bayesian Attention Modules

論文の概要: Bayesian Attention Modules

arxiv url: http://arxiv.org/abs/2010.10604v1
Date: Tue, 20 Oct 2020 20:30:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-05 05:35:58.625207
Title: Bayesian Attention Modules
Title（参考訳）: ベイズ注意加群
Authors: Xinjie Fan and Shujian Zhang and Bo Chen and Mingyuan Zhou
Abstract要約: 実装や最適化が容易な,スケーラブルな注目バージョンを提案する。本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
参考スコア（独自算出の注目度）: 65.52970388117923
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Attention modules, as simple and effective tools, have not only enabled deep neural networks to achieve state-of-the-art results in many domains, but also enhanced their interpretability. Most current models use deterministic attention modules due to their simplicity and ease of optimization. Stochastic counterparts, on the other hand, are less popular despite their potential benefits. The main reason is that stochastic attention often introduces optimization issues or requires significant model changes. In this paper, we propose a scalable stochastic version of attention that is easy to implement and optimize. We construct simplex-constrained attention distributions by normalizing reparameterizable distributions, making the training process differentiable. We learn their parameters in a Bayesian framework where a data-dependent prior is introduced for regularization. We apply the proposed stochastic attention modules to various attention-based models, with applications to graph node classification, visual question answering, image captioning, machine translation, and language understanding. Our experiments show the proposed method brings consistent improvements over the corresponding baselines.
Abstract（参考訳）: シンプルで効果的なツールであるアテンションモジュールは、ディープニューラルネットワークを多くのドメインで最先端の結果を達成するだけでなく、その解釈可能性も強化した。現在のモデルのほとんどは、シンプルさと最適化の容易さのために決定論的アテンションモジュールを使用している。一方、確率的な比較は、潜在的に利益があるにもかかわらず、あまり人気がない。主な理由は、確率的注意がしばしば最適化の問題や大きなモデル変更を必要とするためである。本稿では,実装や最適化が容易な,スケーラブルな確率型アテンションを提案する。我々は,再パラメータ化可能な分布を正規化することにより,単純な注意分布を構築する。我々は、正規化のためにデータ依存の事前を導入するベイズフレームワークでそれらのパラメータを学習する。提案する確率的注意モジュールを様々な注意に基づくモデルに適用し,グラフノード分類,視覚的質問応答,画像キャプション,機械翻訳,言語理解に適用する。本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。

関連論文リスト

Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models [85.51753014478315]
本稿では,新しいプラグ・アンド・プレイ・トレーニングフリープルーニング手法であるAdaptPruneを紹介する。空間距離とトークン類似性を適応的NMSアプローチと組み合わせることで、従来の注意に基づくプルーニングに基づいている。当社のアプローチはトークンの重要性を総合的に評価することを保証するとともに,プルーニング決定を大幅に改善する。
論文参考訳（メタデータ） (2025-03-11T03:58:17Z)
Adjusting Pretrained Backbones for Performativity [34.390793811659556]
本稿では,事前学習したバックボーンをモジュラー方式で演奏性に適応させる新しい手法を提案する。再学習軌道に沿った損失を減らし、候補モデルの中から効果的に選択し、性能劣化を予測できることを示す。
論文参考訳（メタデータ） (2024-10-06T14:41:13Z)
iSeg: An Iterative Refinement-based Framework for Training-free Segmentation [85.58324416386375]
本稿では,自己注意マップを用いた横断注意マップの繰り返し精錬に関する実験的検討を行った。トレーニング不要セグメンテーションのための効果的な反復改良フレームワークiSegを提案する。提案したiSegは,mIoUの3.8%の絶対ゲインを達成している。
論文参考訳（メタデータ） (2024-09-05T03:07:26Z)
Vanishing Feature: Diagnosing Model Merging and Beyond [1.1510009152620668]
結合モデルによる伝搬中に入力誘起特徴が減少する「消滅特徴」現象を同定する。既存の正規化戦略は、消滅する特徴問題を的確に標的にすることで強化できることを示す。初期層機能の保存に重点を置いたPFM(Preserve-First Merging')戦略を提案する。
論文参考訳（メタデータ） (2024-02-05T17:06:26Z)
Patch-Prompt Aligned Bayesian Prompt Tuning for Vision-Language Models [48.77653835765705]
そこでは,まず下位分布から潜在ベクトルをサンプリングし,次に軽量な生成モデルを用いてラベル固有のプロンプトを階層的に生成する。提案手法の有効性は,少数ショット画像認識,ベース・ツー・ニュージェネリゼーション,データセット転送学習,ドメインシフトの4つのタスクで評価する。
論文参考訳（メタデータ） (2023-03-16T06:09:15Z)
An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文参考訳（メタデータ） (2022-07-07T06:50:27Z)
Bayesian Graph Contrastive Learning [55.36652660268726]
本稿では,ランダムな拡張がエンコーダにつながることを示すグラフコントラスト学習手法の新たな視点を提案する。提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,性能が大幅に向上したことを示す。
論文参考訳（メタデータ） (2021-12-15T01:45:32Z)
Probabilistic Attention for Interactive Segmentation [0.0]
変圧器における標準的な点積注意は,最大Aポストエリオーリ(MAP)推論の特別な場合であることを示す。提案手法は,キーおよび値モデルパラメータのオンライン適応に期待値最大化アルゴリズムを用いることを提案する。
論文参考訳（メタデータ） (2021-06-23T00:19:43Z)
Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文参考訳（メタデータ） (2021-06-09T17:46:22Z)
More Is More -- Narrowing the Generalization Gap by Adding Classification Heads [8.883733362171032]
我々は「TransNet」と呼ばれる入力変換に基づく既存のニューラルネットワークモデルのためのアーキテクチャ拡張を導入する。私たちのモデルは、トレーニング時間のみに使用でき、予測のために刈り取られ、結果としてベースモデルと同等のアーキテクチャになります。
論文参考訳（メタデータ） (2021-02-09T16:30:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。