論文の概要: On the Locality of Attention in Direct Speech Translation
- arxiv url: http://arxiv.org/abs/2204.09028v1
- Date: Tue, 19 Apr 2022 17:43:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 14:44:56.691673
- Title: On the Locality of Attention in Direct Speech Translation
- Title(参考訳): 直接音声翻訳における注意の局所性について
- Authors: Belen Alastruey, Javier Ferrando, Gerard I. G\'allego and Marta R.
Costa-juss\`a
- Abstract要約: トランスフォーマーは複数のNLPタスクにまたがって最先端の結果を得た。
直接音声翻訳における自己注意の有用性について論じる。
- 参考スコア(独自算出の注目度): 0.1749935196721634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have achieved state-of-the-art results across multiple NLP
tasks. However, the self-attention mechanism complexity scales quadratically
with the sequence length, creating an obstacle for tasks involving long
sequences, like in the speech domain. In this paper, we discuss the usefulness
of self-attention for Direct Speech Translation. First, we analyze the
layer-wise token contributions in the self-attention of the encoder, unveiling
local diagonal patterns. To prove that some attention weights are avoidable, we
propose to substitute the standard self-attention with a local efficient one,
setting the amount of context used based on the results of the analysis. With
this approach, our model matches the baseline performance, and improves the
efficiency by skipping the computation of those weights that standard attention
discards.
- Abstract(参考訳): トランスフォーマーは複数のNLPタスクで最先端の結果を得た。
しかし、セルフアテンション機構の複雑性はシーケンス長と二乗的にスケールし、音声領域のように長いシーケンスを含むタスクの障害となる。
本稿では,直接音声翻訳における自己注意の有用性について論じる。
まず,エンコーダのセルフアテンションにおける層状トークンの寄与を分析し,局所対角パターンを提示する。
注意重みが避けられることを証明するために, 標準自己着脱を局所的効率的なものに置き換え, 分析結果に基づいて使用する文脈量を設定することを提案する。
このアプローチでは,本モデルがベースライン性能に適合し,標準注意が捨てる重みの計算をスキップすることで効率を向上させる。
関連論文リスト
- Recycled Attention: Efficient inference for long-context language models [54.00118604124301]
本稿では,入力トークンのサブセットに対して,フルコンテキストアテンションとアテンションを交互に切り替える推論時間手法であるRecycled Attentionを提案する。
部分的に注意を払っていると、全注意を払っている前のトークンの注意パターンをリサイクルし、最も出席しているトークンの上位Kにのみ出席する。
提案手法は,局所的な文脈や注目スコアの高いトークンにのみ参加する推論時加速度法と比較して,現在の復号ステップに関連するトークンを柔軟に選択する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z) - DenseDINO: Boosting Dense Self-Supervised Learning with Token-Based
Point-Level Consistency [12.881617910150688]
本稿では,DenseDINOと呼ばれる自己教師型学習のためのトランスフォーマーフレームワークを提案する。
具体的には、DenseDINOは参照トークンと呼ばれるいくつかの追加の入力トークンを導入し、ポイントレベルの特徴と以前の位置とを一致させる。
提案手法は,バニラDINOと比較して,ImageNetの分類で評価すると,競争性能が向上する。
論文 参考訳(メタデータ) (2023-06-06T15:04:45Z) - Context-aware Fine-tuning of Self-supervised Speech Models [56.95389222319555]
微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。
我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
いくつかの下流タスクに対して,SLUE と Libri-light ベンチマークを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-12-16T15:46:15Z) - Attention as a Guide for Simultaneous Speech Translation [15.860792612311277]
同時音声翻訳(SimulST)のための注意ベースのポリシー(EDAtt)を提案する。
その目標は、エンコーダとデコーダのアテンションスコアを活用して、推論をリアルタイムでガイドすることだ。
en->de, esでは, EDAttポリシがSimulST状態と比較して総合的に優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2022-12-15T14:18:53Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z) - Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。
本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。
提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-09T17:46:22Z) - Capturing Multi-Resolution Context by Dilated Self-Attention [58.69803243323346]
限定的自己意識と拡張メカニズムの組み合わせを提案し,これを拡張的自己意識と呼ぶ。
制限された自己注意は、高分解能でクエリの隣接するフレームに注意を払い、拡張メカニズムは、より低い解像度でそれに出席できるように遠方の情報を要約します。
ASRの結果は、制限された自己アテンションのみと比較して大幅に改善され、計算コストのごく一部をフルシーケンスベースの自己アテンションと比較すると、同様の結果が得られる。
論文 参考訳(メタデータ) (2021-04-07T02:04:18Z) - Improving BERT with Syntax-aware Local Attention [14.70545694771721]
そこで本研究では,構文構造における距離を対象とする局所的注意度(局所注意度)を提案する。
文分類やシーケンスラベリングタスクなど,シングルセンテンスベンチマークの各種実験を行った。
我々のモデルは、構文的に関連のある単語により注意を払って、より良いパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-12-30T13:29:58Z) - Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。
ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文 参考訳(メタデータ) (2020-09-30T13:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。