論文の概要: Multi-label Sound Event Retrieval Using a Deep Learning-based Siamese
Structure with a Pairwise Presence Matrix
- arxiv url: http://arxiv.org/abs/2002.09026v1
- Date: Thu, 20 Feb 2020 21:33:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 08:25:33.940495
- Title: Multi-label Sound Event Retrieval Using a Deep Learning-based Siamese
Structure with a Pairwise Presence Matrix
- Title(参考訳): Pairwise Presence Matrix を用いた深層学習型シームズ構造を用いたマルチラベル音声イベント検索
- Authors: Jianyu Fan, Eric Nichols, Daniel Tompkins, Ana Elisa Mendez Mendez,
Benjamin Elizalde, and Philippe Pasquier
- Abstract要約: 最先端の音声イベント検索モデルは、シングルラベル音声記録に重点を置いている。
本稿では,シームズ構造とPairwise Presence Matrixを用いたDeep Learningアーキテクチャを提案する。
ネットワークはSONYC-USTデータセットを用いて訓練・評価され、シングルラベルとマルチラベルのサウンドスケープが記録される。
- 参考スコア(独自算出の注目度): 11.54047475139282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Realistic recordings of soundscapes often have multiple sound events
co-occurring, such as car horns, engine and human voices. Sound event retrieval
is a type of content-based search aiming at finding audio samples, similar to
an audio query based on their acoustic or semantic content. State of the art
sound event retrieval models have focused on single-label audio recordings,
with only one sound event occurring, rather than on multi-label audio
recordings (i.e., multiple sound events occur in one recording). To address
this latter problem, we propose different Deep Learning architectures with a
Siamese-structure and a Pairwise Presence Matrix. The networks are trained and
evaluated using the SONYC-UST dataset containing both single- and multi-label
soundscape recordings. The performance results show the effectiveness of our
proposed model.
- Abstract(参考訳): サウンドスケープのリアルな録音は、カーホーン、エンジン、人間の声など、複数のサウンドイベントが同時に発生することが多い。
音声イベント検索(英: Sound Event Search)は、音声のサンプルを見つけることを目的とした、コンテンツに基づく検索の一種である。
最先端の音声イベント検索モデルは、シングルラベルの音声録音に焦点を合わせており、複数ラベルの音声録音(つまり、複数の音声イベントが1つの録音で発生する)ではなく、1つのサウンドイベントのみ発生している。
後者の問題に対処するため,シームズ構造とPairwise Presence Matrixを用いた異なるディープラーニングアーキテクチャを提案する。
ネットワークは、シングルラベルとマルチラベルの両方のサウンドスケープ記録を含むsonyc-ustデータセットを使用してトレーニングおよび評価される。
その結果,提案モデルの有効性が示された。
関連論文リスト
- AudioFormer: Audio Transformer learns audio feature representations from
discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。
以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2023-08-14T15:47:25Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Epic-Sounds: A Large-scale Dataset of Actions That Sound [64.24297230981168]
Epic-Soundsは、時間範囲とクラスラベルをキャプチャする大規模なオーディオアノテーションデータセットである。
我々は、これらの自由形式の音声記述をクラスにまとめることで、純粋に音声と区別できる行動を特定する。
全体として、Epic-Soundsには78.4kの分類された音声イベントとアクションのセグメントがあり、44のクラスにまたがって配布され、39.2kの非分類セグメントが含まれている。
論文 参考訳(メタデータ) (2023-02-01T18:19:37Z) - Binaural Signal Representations for Joint Sound Event Detection and
Acoustic Scene Classification [3.300149824239397]
音響事象検出 (SED) と音響シーン分類 (ASC) は、音響シーン解析の研究において重要な部分を占める、広く研究されている2つのオーディオタスクである。
音響イベントと音響シーンの共有情報を考えると、両方のタスクを共同で行うことは、複雑なマシンリスニングシステムの自然な部分である。
本稿では,SEDとASCを併用した共同深層ニューラルネットワーク(DNN)モデルの訓練における空間オーディオ機能の有用性について検討する。
論文 参考訳(メタデータ) (2022-09-13T11:29:00Z) - Visual Acoustic Matching [92.91522122739845]
本稿では,音声クリップがターゲット環境に録音されたような音に変換される視覚的音響マッチングタスクを提案する。
対象の環境の画像とソースオーディオの波形が与えられた場合、その視覚的幾何学や材料によって示唆されるように、ターゲットの部屋の音響と一致するように、オーディオを再合成することが目的である。
論文 参考訳(メタデータ) (2022-02-14T17:05:22Z) - Geometry-Aware Multi-Task Learning for Binaural Audio Generation from
Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。
既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文 参考訳(メタデータ) (2021-11-21T19:26:45Z) - Exploiting Audio-Visual Consistency with Partial Supervision for Spatial
Audio Generation [45.526051369551915]
本論文では,モノラル映像を音声と視覚の要素間の関係を利用して変換するオーディオ空間化フレームワークを提案する。
ベンチマークデータセットに関する実験では,半教師ありシナリオと完全教師ありシナリオの両方において,提案フレームワークの有効性を確認した。
論文 参考訳(メタデータ) (2021-05-03T09:34:11Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。