論文の概要: Deformable Audio Transformer for Audio Event Detection
- arxiv url: http://arxiv.org/abs/2312.16228v2
- Date: Mon, 8 Jan 2024 03:52:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 21:34:09.014633
- Title: Deformable Audio Transformer for Audio Event Detection
- Title(参考訳): オーディオイベント検出用変形可能なオーディオトランス
- Authors: Wentao Zhu
- Abstract要約: 本稿では,ピラミッド変換器のバックボーンを組み込んだ変形性アテンションを構築,学習可能な,音声認識のための新しい変形性オーディオトランスを提案する。
変形可能なアテンションマップは入力機能を過剰に単純化し、さらに拡張できる可能性がある。
- 参考スコア(独自算出の注目度): 6.341420717393898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have achieved promising results on a variety of tasks. However,
the quadratic complexity in self-attention computation has limited the
applications, especially in low-resource settings and mobile or edge devices.
Existing works have proposed to exploit hand-crafted attention patterns to
reduce computation complexity. However, such hand-crafted patterns are
data-agnostic and may not be optimal. Hence, it is likely that relevant keys or
values are being reduced, while less important ones are still preserved. Based
on this key insight, we propose a novel deformable audio Transformer for audio
recognition, named DATAR, where a deformable attention equipping with a pyramid
transformer backbone is constructed and learnable. Such an architecture has
been proven effective in prediction tasks,~\textit{e.g.}, event classification.
Moreover, we identify that the deformable attention map computation may
over-simplify the input feature, which can be further enhanced. Hence, we
introduce a learnable input adaptor to alleviate this issue, and DATAR achieves
state-of-the-art performance.
- Abstract(参考訳): トランスフォーマーは様々なタスクで有望な結果を得た。
しかし、セルフアテンション計算の二次的な複雑さは、特に低リソース設定やモバイルまたはエッジデバイスにおいて、アプリケーションを制限する。
既存の作業では、計算複雑性を低減するために手作りの注意パターンを利用する方法が提案されている。
しかし、このような手作りのパターンはデータに依存しず最適ではないかもしれない。
したがって、関連するキーや値が減っている可能性が高いが、重要でないキーは保存されている。
そこで本研究では,ピラミッド型トランスフォーマーのバックボーンを装着した変形可能な注意を構築・学習可能な,新しいオーディオ認識用変形型オーディオトランスフォーマーdatarを提案する。
このようなアーキテクチャは、予測タスク、~\textit{例えば}、イベント分類において有効であることが証明されている。
さらに,変形可能なアテンションマップ計算が入力機能を単純化し,さらに拡張できることを示す。
そこで我々は,この問題を解消するために学習可能な入力アダプタを導入し,datarは最先端のパフォーマンスを実現する。
関連論文リスト
- Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。
Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。
ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文 参考訳(メタデータ) (2024-10-07T17:57:38Z) - DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Laplacian-Former: Overcoming the Limitations of Vision Transformers in
Local Texture Detection [3.784298636620067]
Vision Transformer (ViT) モデルは、幅広いコンピュータビジョンタスクにおいてブレークスルーを実証している。
これらのモデルは、画像の高周波成分を捉えるのに苦労しており、局所的なテクスチャやエッジ情報を検出する能力を制限することができる。
本稿では,ラプラシアンピラミッド内の周波数情報を適応的に補正することで自己注意マップを向上する新しい手法であるラプラシアン・フォーマーを提案する。
論文 参考訳(メタデータ) (2023-08-31T19:56:14Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - Incrementally-Computable Neural Networks: Efficient Inference for
Dynamic Inputs [75.40636935415601]
ディープラーニングは、センサーデータやユーザ入力などの動的入力を効率的に処理するという課題に直面していることが多い。
インクリメンタルな計算アプローチを採用し、入力の変化に応じて計算を再利用する。
本稿では,この手法をトランスフォーマーアーキテクチャに適用し,修正入力の分数に比例した複雑性を持つ効率的なインクリメンタル推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-27T16:30:27Z) - Wave-ViT: Unifying Wavelet and Transformers for Visual Representation
Learning [138.29273453811945]
マルチスケールビジョントランス (ViT) はコンピュータビジョンタスクの強力なバックボーンとして登場した。
本稿では,ウェーブレット変換と自己注意学習を用いて,可逆的なダウンサンプリングを定式化する新しいウェーブレットビジョン変換器(textbfWave-ViT)を提案する。
論文 参考訳(メタデータ) (2022-07-11T16:03:51Z) - Audiomer: A Convolutional Transformer for Keyword Spotting [0.0]
本稿では,1D Residual NetworksとPerformer Attentionを組み合わせることで,キーワードスポッティングにおける最先端のパフォーマンスを実現するAudiomerを紹介する。
Audiomerは、計算制約のあるデバイスへのデプロイと、より小さなデータセットでのトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-09-21T15:28:41Z) - Dissecting User-Perceived Latency of On-Device E2E Speech Recognition [34.645194215436966]
我々は,トークン放出遅延とエンドポイント動作に影響を与える要因がユーザ知覚遅延(upl)に大きく影響することを示す。
我々は,最近提案されたアライメント正規化を用いて,ASRとエンドポイントを併用する際のレイテンシと単語エラー率の最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2021-04-06T00:55:11Z) - Input-independent Attention Weights Are Expressive Enough: A Study of
Attention in Self-supervised Audio Transformers [55.40032342541187]
我々は、自己教師付きアルゴリズムを用いたトランスフォーマーベースモデルを事前訓練し、下流タスクにおける特徴抽出器として扱う。
このアプローチでは、トレーニングと推論の両方において、通常の自己注意と同等のパフォーマンスで20%の時間を要することが示されています。
論文 参考訳(メタデータ) (2020-06-09T10:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。