論文の概要: Large Scale Audiovisual Learning of Sounds with Weakly Labeled Data
- arxiv url: http://arxiv.org/abs/2006.01595v1
- Date: Fri, 29 May 2020 01:30:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 23:21:38.232122
- Title: Large Scale Audiovisual Learning of Sounds with Weakly Labeled Data
- Title(参考訳): 弱ラベルデータを用いた音の大規模視聴覚学習
- Authors: Haytham M. Fayek and Anurag Kumar
- Abstract要約: 本稿では、弱いラベル付きビデオ記録から音を認識することを学習するオーディオ視覚融合モデルを提案する。
大規模音響イベントデータセットであるAudioSetの実験は,提案モデルの有効性を実証する。
- 参考スコア(独自算出の注目度): 9.072124914105325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing sounds is a key aspect of computational audio scene analysis and
machine perception. In this paper, we advocate that sound recognition is
inherently a multi-modal audiovisual task in that it is easier to differentiate
sounds using both the audio and visual modalities as opposed to one or the
other. We present an audiovisual fusion model that learns to recognize sounds
from weakly labeled video recordings. The proposed fusion model utilizes an
attention mechanism to dynamically combine the outputs of the individual audio
and visual models. Experiments on the large scale sound events dataset,
AudioSet, demonstrate the efficacy of the proposed model, which outperforms the
single-modal models, and state-of-the-art fusion and multi-modal models. We
achieve a mean Average Precision (mAP) of 46.16 on Audioset, outperforming
prior state of the art by approximately +4.35 mAP (relative: 10.4%).
- Abstract(参考訳): 音の認識は、計算オーディオシーン分析と機械知覚の重要な側面である。
本稿では、音声認識は、音声と視覚の両方のモダリティを用いて音の区別が容易であるという点において、本質的にはマルチモーダルなオーディオビジュアルタスクであると主張する。
本稿では,弱ラベルビデオ記録から音を認識することを学ぶオーディオビジュアル融合モデルを提案する。
提案する融合モデルでは,個々の音声および視覚モデルの出力を動的に結合するアテンション機構を利用する。
大規模音響イベントデータセットであるaudiosetの実験では、シングルモーダルモデルや最先端融合モデルやマルチモーダルモデルよりも優れる、提案モデルの有効性が示されている。
平均精度 (mAP) は46.16で, 平均精度 (mAP) は約4.35 mAP (相対値10.4%) で先行技術より優れていた。
関連論文リスト
- Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models [56.776580717999806]
現実世界のアプリケーションは、複数のオーディオストリームを同時に処理することが多い。
11のマルチオーディオタスクから20のデータセットからなる最初のマルチオーディオ評価ベンチマークを提案する。
本稿では,複数の類似した音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。
論文 参考訳(メタデータ) (2024-09-27T12:06:53Z) - Audio Mamba: Selective State Spaces for Self-Supervised Audio Representations [16.269123889392343]
本研究は,汎用音声表現学習のための選択状態空間モデルであるAudio Mambaを提案する。
10種類の多様なオーディオ認識ダウンストリームタスクに対する実験結果から、提案したモデルは、同等の自己教師型オーディオスペクトログラム変換器のベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2024-06-04T10:19:14Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - MAViL: Masked Audio-Video Learners [68.61844803682145]
本研究では,masked Audio-Video Learningers (MAViL) を用いて映像表現の学習を行う。
MAViLによる事前トレーニングにより、音声視覚分類および検索タスクにおいて、モデルの性能が向上する。
自己監督型オーディオ視覚モデルが初めて、ベンチマークの外部監視を使用するモデルよりも優れています。
論文 参考訳(メタデータ) (2022-12-15T18:59:59Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Contrastive Environmental Sound Representation Learning [6.85316573653194]
我々は,自己監督型コントラスト手法と浅い1次元CNNを利用して,明示的なアノテーションを使わずに独特の音声特徴(音響表現)を抽出する。
生音声波形とスペクトログラムの両方を用いて、所定の音声の表現を生成し、提案した学習者が音声入力の種類に依存しないかどうかを評価する。
論文 参考訳(メタデータ) (2022-07-18T16:56:30Z) - A Single Self-Supervised Model for Many Speech Modalities Enables
Zero-Shot Modality Transfer [31.028408352051684]
マルチモーダル音声と非モーダル音声の両方を活用できる自己教師型事前学習フレームワークであるu-HuBERTを提案する。
LRS3では1.2%/1.4%/27.2%の音声認識単語誤り率を示す。
論文 参考訳(メタデータ) (2022-07-14T16:21:33Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。