論文の概要: Play It Back: Iterative Attention for Audio Recognition
- arxiv url: http://arxiv.org/abs/2210.11328v1
- Date: Thu, 20 Oct 2022 15:03:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 14:24:24.110893
- Title: Play It Back: Iterative Attention for Audio Recognition
- Title(参考訳): Play It Back: 音声認識のための反復的注意
- Authors: Alexandros Stergiou and Dima Damen
- Abstract要約: 聴覚認知の重要な機能は、特徴音とそれに対応する意味を時間とともに関連付けることである。
本稿では,最も識別性の高い音に対して選択的な繰り返しを通し,終端から終端までの注意に基づくアーキテクチャを提案する。
提案手法は,3つのオーディオ分類ベンチマークにおいて常に最先端の性能を達成可能であることを示す。
- 参考スコア(独自算出の注目度): 104.628661890361
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key function of auditory cognition is the association of characteristic
sounds with their corresponding semantics over time. Humans attempting to
discriminate between fine-grained audio categories, often replay the same
discriminative sounds to increase their prediction confidence. We propose an
end-to-end attention-based architecture that through selective repetition
attends over the most discriminative sounds across the audio sequence. Our
model initially uses the full audio sequence and iteratively refines the
temporal segments replayed based on slot attention. At each playback, the
selected segments are replayed using a smaller hop length which represents
higher resolution features within these segments. We show that our method can
consistently achieve state-of-the-art performance across three
audio-classification benchmarks: AudioSet, VGG-Sound, and EPIC-KITCHENS-100.
- Abstract(参考訳): 聴覚認知の重要な機能は、特徴音とその対応する意味論を時間とともに関連付けることである。
微粒なオーディオカテゴリーを区別しようとする人間は、しばしば予測の信頼性を高めるために同じ識別音を再生する。
本稿では,音声系列の最も識別性の高い音に対して,選択的な繰り返しを通したエンドツーエンドの注意に基づくアーキテクチャを提案する。
我々のモデルは最初,全音声シーケンスを使用し,スロットアテンションに基づいて繰り返し再生される時間セグメントを改良する。
各再生では、選択されたセグメントはより小さなホップ長で再生され、これらのセグメント内の高精細な特徴を表す。
本手法は,audioset,vgg-sound,epic-kitchens-100の3つの音声分類ベンチマークにおいて,最先端の性能を一貫して達成できることを示す。
関連論文リスト
- Multi-label Zero-Shot Audio Classification with Temporal Attention [8.518434546898524]
本研究では,マルチラベルゼロショット音声分類を行う手法を提案する。
我々は時間的注意を適応させ、その音響的および意味的適合性に基づいて、異なる音声セグメントに重みを割り当てる。
その結果,時間的注意がマルチラベルシナリオにおけるゼロショット音声分類性能を向上させることがわかった。
論文 参考訳(メタデータ) (2024-08-31T09:49:41Z) - STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment [61.83340833859382]
様々な音声・ビデオの意味を時間とともに継続的に学習することは、音声関連推論タスクに不可欠である。
これは非時間的問題であり、オーディオとビデオのペア間のスパース時間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトという2つの重要な課題を提起する。
本稿では,2つの新しいアイデアを取り入れた連続的なオーディオビデオ事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-12T10:50:21Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Audio-Visual Synchronisation in the wild [149.84890978170174]
我々は,VGG-Sound Syncという,高い音声・視覚相関を持つテストセットを同定し,キュレートする。
任意の長さの音響信号と視覚信号のモデル化に特化して設計された,トランスフォーマーに基づく多数のアーキテクチャ変種を比較した。
我々は,新しいVGG-Sound Syncビデオデータセットにおいて,160以上の多様なクラスと一般的な音声-視覚同期のための最初のベンチマークを設定した。
論文 参考訳(メタデータ) (2021-12-08T17:50:26Z) - You Only Hear Once: A YOLO-like Algorithm for Audio Segmentation and
Sound Event Detection [0.0]
私たちは、あなただけに耳を傾ける(YOHO)という新しいアプローチを提示します。
フレームベース分類の代わりに音響境界の検出を回帰問題に変換する。
YOHOは、最先端の畳み込みリカレントニューラルネットワークよりも高いF測定値と低いエラー率を得た。
論文 参考訳(メタデータ) (2021-09-01T12:50:16Z) - Audio-visual Speech Separation with Adversarially Disentangled Visual
Representation [23.38624506211003]
音声分離は、複数の同時話者による音声の混合から個々の音声を分離することを目的としている。
本モデルでは,顔検出器を用いて現場の話者数を検出し,視覚情報を用いて順列化問題を回避する。
提案モデルは,最先端のオーディオのみのモデルと3つのオーディオ視覚モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-11-29T10:48:42Z) - Neural Audio Fingerprint for High-specific Audio Retrieval based on
Contrastive Learning [14.60531205031547]
セグメントレベルの探索目的から導出するコントラスト学習フレームワークを提案する。
従来の音声フィンガープリントシステムが故障したセグメントレベルの検索タスクでは,10倍小さいストレージを用いたシステムが有望な結果を示した。
論文 参考訳(メタデータ) (2020-10-22T17:44:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。