論文の概要: Slow-Fast Auditory Streams For Audio Recognition
- arxiv url: http://arxiv.org/abs/2103.03516v1
- Date: Fri, 5 Mar 2021 07:51:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-08 14:36:19.913596
- Title: Slow-Fast Auditory Streams For Audio Recognition
- Title(参考訳): Slow-Fast Auditory Streams for Audio Recognition
- Authors: Evangelos Kazakos, Arsha Nagrani, Andrew Zisserman, Dima Damen
- Abstract要約: 分離可能な畳み込みと多レベル側線接続を持つ低速な聴覚ストリームを学習する。
本稿では,VGG-SoundとEPIC-KITCHENS-100という2つの異なるデータセットに対する2ストリーム提案の重要性を示す。
- 参考スコア(独自算出の注目度): 101.7520667593296
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a two-stream convolutional network for audio recognition, that
operates on time-frequency spectrogram inputs. Following similar success in
visual recognition, we learn Slow-Fast auditory streams with separable
convolutions and multi-level lateral connections. The Slow pathway has high
channel capacity while the Fast pathway operates at a fine-grained temporal
resolution. We showcase the importance of our two-stream proposal on two
diverse datasets: VGG-Sound and EPIC-KITCHENS-100, and achieve state-of-the-art
results on both.
- Abstract(参考訳): 本稿では,時間周波数のスペクトログラム入力で動作する2ストリーム畳み込みネットワークを提案する。
視覚認識における同様の成功の後、我々は分離可能な畳み込みと多レベルの側方接続を持つ低速聴覚ストリームを学習する。
Slow経路はチャンネル容量が高く、Fast経路は細かい時間分解能で動作します。
本稿では,VGG-Sound と EPIC-KITCHENS-100 の2つの異なるデータセットに対する2ストリーム提案の重要性を述べる。
関連論文リスト
- Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - AVE-CLIP: AudioCLIP-based Multi-window Temporal Transformer for Audio
Visual Event Localization [14.103742565510387]
AVE-CLIPは,大規模音声・視覚データに事前学習したAudioCLIPを,マルチウィンドウ時間変換器と統合した新しいフレームワークである。
提案手法は,AVEデータセット上での最先端性能を5.9%の平均精度改善で達成する。
論文 参考訳(メタデータ) (2022-10-11T00:15:45Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - V-SlowFast Network for Efficient Visual Sound Separation [16.447597767676655]
時間分解能の異なる分光図の視覚的音像分離について検討する。
我々は,視覚フレーム,スロースペクトログラム,高速スペクトログラムで動作する,軽量で効率的な3ストリームフレームワーク V-SlowFast を提案する。
論文 参考訳(メタデータ) (2021-09-18T07:44:31Z) - Discriminative Multi-modality Speech Recognition [17.296404414250553]
視覚は、しばしば音声音声認識(ASR)の相補的モダリティとして使用される。
本稿では,2段階音声認識モデルを提案する。
第1段階では、対象の音声を、対応する唇の動きの視覚情報から助けを借りて背景雑音から分離し、モデル「リスト」を明確にする。
第2段階では、音声モダリティは視覚的モダリティを再び組み合わせて、MSRサブネットワークによる音声の理解を深め、認識率をさらに向上させる。
論文 参考訳(メタデータ) (2020-05-12T07:56:03Z) - Audiovisual SlowFast Networks for Video Recognition [140.08143162600354]
本稿では,視聴覚統合アーキテクチャであるAudiovisual SlowFast Networksを紹介する。
複数の層に音声と視覚的特徴を融合させ,階層型音声視覚概念の形成に寄与する。
6つのビデオ行動分類と検出データセットの結果を報告し、詳細なアブレーション研究を行い、AVSlowFastの一般化を示し、自己監督型音声視覚特徴を学習する。
論文 参考訳(メタデータ) (2020-01-23T18:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。