論文の概要: Contrastive Environmental Sound Representation Learning
- arxiv url: http://arxiv.org/abs/2207.08825v1
- Date: Mon, 18 Jul 2022 16:56:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 13:25:57.825828
- Title: Contrastive Environmental Sound Representation Learning
- Title(参考訳): 対照的な環境音表現学習
- Authors: Peter Ochieng, Dennis Kaburu
- Abstract要約: 我々は,自己監督型コントラスト手法と浅い1次元CNNを利用して,明示的なアノテーションを使わずに独特の音声特徴(音響表現)を抽出する。
生音声波形とスペクトログラムの両方を用いて、所定の音声の表現を生成し、提案した学習者が音声入力の種類に依存しないかどうかを評価する。
- 参考スコア(独自算出の注目度): 6.85316573653194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine hearing of the environmental sound is one of the important issues in
the audio recognition domain. It gives the machine the ability to discriminate
between the different input sounds that guides its decision making. In this
work we exploit the self-supervised contrastive technique and a shallow 1D CNN
to extract the distinctive audio features (audio representations) without using
any explicit annotations.We generate representations of a given audio using
both its raw audio waveform and spectrogram and evaluate if the proposed
learner is agnostic to the type of audio input. We further use canonical
correlation analysis (CCA) to fuse representations from the two types of input
of a given audio and demonstrate that the fused global feature results in
robust representation of the audio signal as compared to the individual
representations. The evaluation of the proposed technique is done on both
ESC-50 and UrbanSound8K. The results show that the proposed technique is able
to extract most features of the environmental audio and gives an improvement of
12.8% and 0.9% on the ESC-50 and UrbanSound8K datasets respectively.
- Abstract(参考訳): 環境音の機械聴覚は,音声認識領域において重要な問題の一つである。
これにより、マシンは、意思決定を導く様々な入力音を区別することができる。
本研究では,自己教師付きコントラスト技術と浅い1次元cnnを用いて,明示的な注釈を使わずに特徴的音声特徴(音声表現)を抽出し,その音声波形とスペクトログラムの両方を用いて,与えられた音声の表現を生成し,学習者が音声入力のタイプに無依存かどうかを評価する。
さらに,任意の音声の2種類の入力から表現を融合するcanonical correlation analysis (cca) を用いて,融合されたグローバル特徴が個々の表現と比較して音声信号のロバストな表現をもたらすことを示す。
提案手法の評価はESC-50とUrbanSound8Kで行う。
その結果,提案手法は環境音の特徴を抽出し,ESC-50データセットとUrbanSound8Kデータセットでそれぞれ12.8%,0.9%の改善が得られた。
関連論文リスト
- AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - XAI-based Comparison of Input Representations for Audio Event
Classification [10.874097312428235]
我々はeXplainable AI(XAI)を活用し、異なる入力表現に基づいて訓練されたモデルの基本的な分類戦略を理解する。
具体的には、オーディオイベント検出に使用される関連する入力機能について、2つのモデルアーキテクチャを比較した。
論文 参考訳(メタデータ) (2023-04-27T08:30:07Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Joint Speech Recognition and Audio Captioning [37.205642807313545]
室内と屋外の両方で録音された音声サンプルは、しばしば二次音源で汚染される。
自動音声キャプション(AAC)の進展する分野と、徹底的に研究された自動音声認識(ASR)を一体化することを目的としている。
本稿では,ASRタスクとAACタスクのエンドツーエンド共同モデリングのためのいくつかのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-03T04:42:43Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Large Scale Audiovisual Learning of Sounds with Weakly Labeled Data [9.072124914105325]
本稿では、弱いラベル付きビデオ記録から音を認識することを学習するオーディオ視覚融合モデルを提案する。
大規模音響イベントデータセットであるAudioSetの実験は,提案モデルの有効性を実証する。
論文 参考訳(メタデータ) (2020-05-29T01:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。