論文の概要: Understanding Self-Attention of Self-Supervised Audio Transformers
- arxiv url: http://arxiv.org/abs/2006.03265v2
- Date: Mon, 10 Aug 2020 18:48:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 03:53:46.999999
- Title: Understanding Self-Attention of Self-Supervised Audio Transformers
- Title(参考訳): 自己教師付きオーディオトランスフォーマの自己着脱理解
- Authors: Shu-wen Yang, Andy T. Liu, Hung-yi Lee
- Abstract要約: 自己教師型音声変換器(SAT)は、ASRのような多くの下流音声アプリケーションで大きな成功を収めるが、その動作方法はまだ広く検討されていない。
本研究では,SATにおけるアテンションメカニズムの解析のための複数の戦略を提案する。
- 参考スコア(独自算出の注目度): 74.38550595045855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised Audio Transformers (SAT) enable great success in many
downstream speech applications like ASR, but how they work has not been widely
explored yet. In this work, we present multiple strategies for the analysis of
attention mechanisms in SAT. We categorize attentions into explainable
categories, where we discover each category possesses its own unique
functionality. We provide a visualization tool for understanding multi-head
self-attention, importance ranking strategies for identifying critical
attention, and attention refinement techniques to improve model performance.
- Abstract(参考訳): 自己教師型音声変換器(SAT)は、ASRのような多くの下流音声アプリケーションで大きな成功を収めるが、その動作方法はまだ広く検討されていない。
本稿では,satにおける注意メカニズム分析のための複数の戦略を提案する。
注意を説明可能なカテゴリに分類し、それぞれのカテゴリが独自の機能を持っていることを発見する。
マルチヘッド・セルフアテンションを理解するための可視化ツール、重要な注意を識別するための重要ランキング戦略、モデル性能を改善するための注意改善技術を提供する。
関連論文リスト
- AttentionViz: A Global View of Transformer Attention [60.82904477362676]
本研究では,変圧器の自己保持機構を研究者が理解するための新しい可視化手法を提案する。
提案手法の背景にある主な考え方は,問合せとキーベクトルの結合埋め込みを可視化し,注意力を計算することである。
このような共同クエリキーの埋め込みに基づいて,インタラクティブな可視化ツールであるAttentionVizを開発した。
論文 参考訳(メタデータ) (2023-05-04T23:46:49Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - Pay Self-Attention to Audio-Visual Navigation [24.18976027602831]
本研究では、コンテキスト認識型音声-視覚融合戦略を用いて、移動中の音声ターゲットの追跡を学習するためのエンドツーエンドフレームワークを提案する。
FSAAVNの精度と最先端技術との比較を徹底した実験により検証した。
論文 参考訳(メタデータ) (2022-10-04T03:42:36Z) - Adaptive Sparse and Monotonic Attention for Transformer-based Automatic
Speech Recognition [32.45255303465946]
本稿では,Transformer ベースの ASR にスパースアテンションとモノトニックアテンションを導入する。
提案手法は,広く使用されている音声認識のベンチマークにおいて,注意機構を効果的に改善できることを示す。
論文 参考訳(メタデータ) (2022-09-30T01:55:57Z) - Improving Speech Emotion Recognition Through Focus and Calibration
Attention Mechanisms [0.5994412766684842]
既存のマルチヘッド自己注意における注意と信号振幅の相違を同定する。
そこで本研究では,マルチヘッド・セルフアテンションと組み合わせて,フォーカス・アテンション(FA)機構とノベル・アテンション(CA)機構を提案する。
CA機構を利用することで、異なる重みをそれぞれのアテンションヘッドに割り当てることで、情報フローを変調し、周囲のコンテキストの利用を改善することができる。
論文 参考訳(メタデータ) (2022-08-21T08:04:22Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - Input-independent Attention Weights Are Expressive Enough: A Study of
Attention in Self-supervised Audio Transformers [55.40032342541187]
我々は、自己教師付きアルゴリズムを用いたトランスフォーマーベースモデルを事前訓練し、下流タスクにおける特徴抽出器として扱う。
このアプローチでは、トレーニングと推論の両方において、通常の自己注意と同等のパフォーマンスで20%の時間を要することが示されています。
論文 参考訳(メタデータ) (2020-06-09T10:40:52Z) - Does Visual Self-Supervision Improve Learning of Speech Representations
for Emotion Recognition? [63.564385139097624]
本研究は,音声表現の学習を指導するために,顔再構成による視覚的自己監督について検討する。
提案した視覚的・音声的自己監督のマルチタスクの組み合わせは,よりリッチな特徴を学習する上で有益であることを示す。
学習した音声表現を、離散的感情認識、連続的感情認識、自動音声認識のために評価する。
論文 参考訳(メタデータ) (2020-05-04T11:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。