論文の概要: Learning to Detect Novel and Fine-Grained Acoustic Sequences Using
Pretrained Audio Representations
- arxiv url: http://arxiv.org/abs/2305.02382v1
- Date: Wed, 3 May 2023 18:41:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 18:04:58.961485
- Title: Learning to Detect Novel and Fine-Grained Acoustic Sequences Using
Pretrained Audio Representations
- Title(参考訳): 事前学習した音声表現を用いた新規・微粒な音響系列の検出
- Authors: Vasudha Kowtha, Miquel Espi Marques, Jonathan Huang, Yichi Zhang,
Carlos Avendano
- Abstract要約: 我々は,適切な表現を事前学習するための手順を開発し,それを数少ないショット学習シナリオに転送する手法を開発した。
本研究では,AudioSetにおける事前学習表現の汎用性を評価する。
事前訓練された埋め込みは提案したタスクに適しており、数少ないショットフレームワークの複数の側面を可能にする。
- 参考スコア(独自算出の注目度): 17.043435238200605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work investigates pretrained audio representations for few shot Sound
Event Detection. We specifically address the task of few shot detection of
novel acoustic sequences, or sound events with semantically meaningful temporal
structure, without assuming access to non-target audio. We develop procedures
for pretraining suitable representations, and methods which transfer them to
our few shot learning scenario. Our experiments evaluate the general purpose
utility of our pretrained representations on AudioSet, and the utility of
proposed few shot methods via tasks constructed from real-world acoustic
sequences. Our pretrained embeddings are suitable to the proposed task, and
enable multiple aspects of our few shot framework.
- Abstract(参考訳): 本研究は,少数のショット音声イベント検出のための事前訓練された音声表現について検討する。
非ターゲット音声へのアクセスを前提とせず、新規な音響シーケンスや意味論的に意味のある時間構造を持つ音声イベントの少ないショット検出の課題に対処する。
我々は,適切な表現を事前学習するための手順と,それを少数のショット学習シナリオに伝達する手法を開発した。
本実験は,AudioSetにおける事前学習表現の汎用性と,実世界の音響シーケンスから構築したタスクによるいくつかのショット手法の有用性を評価する。
トレーニング済みの埋め込みは、提案するタスクに適しており、少数のフレームワークの複数の側面を有効にしています。
関連論文リスト
- Learning Audio Concepts from Counterfactual Natural Language [34.118579918018725]
本研究では,音声領域における因果推論と反事実解析を紹介する。
本モデルは,人間の注釈付き参照テキストからの音響特性と音源情報について考察する。
具体的には、オープンエンド言語に基づく音声検索タスクにおけるトップ1の精度が43%以上向上した。
論文 参考訳(メタデータ) (2024-01-10T05:15:09Z) - Pretraining Representations for Bioacoustic Few-shot Detection using
Supervised Contrastive Learning [10.395255631261458]
バイオ音響応用において、ほとんどのタスクにはラベル付きトレーニングデータはほとんど含まれない。
教師付きコントラスト学習フレームワークを用いてデータ拡張を活用することにより、スクラッチからリッチな特徴抽出器を学習することができることを示す。
我々は検証セットで63.46%、テストセットで42.7%のFスコアを取得し、DCASEチャレンジで2位となった。
論文 参考訳(メタデータ) (2023-09-02T09:38:55Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Audiovisual Masked Autoencoders [93.22646144125457]
我々は,音声視覚下層分類タスクにおいて,大幅な改善が達成できることを示す。
また,Epic Kitchens における最先端オーディオ映像の表現の伝達性について述べる。
論文 参考訳(メタデータ) (2022-12-09T17:34:53Z) - Binaural SoundNet: Predicting Semantics, Depth and Motion with Binaural
Sounds [118.54908665440826]
人間は視覚的および/または聴覚的手がかりを用いて、オブジェクトを頑健に認識し、ローカライズすることができる。
この研究は、純粋に音に基づくシーン理解のためのアプローチを開発する。
視覚的および音声的手がかりの共存は、監督伝達に活用される。
論文 参考訳(メタデータ) (2021-09-06T22:24:00Z) - Audiovisual transfer learning for audio tagging and sound event
detection [21.574781022415372]
本研究では,2つの音声認識問題,すなわち音声タグ付けと音声イベント検出における伝達学習の利点について検討する。
我々は、スペクトル音響入力のみを利用したベースラインシステムを適用し、事前訓練された聴覚と視覚的特徴を利用する。
オーディオヴィジュアルなマルチラベルデータセット上で,これらのモデルを用いて実験を行う。
論文 参考訳(メタデータ) (2021-06-09T21:55:05Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - Foreground-Background Ambient Sound Scene Separation [0.0]
本稿では,特徴量正規化方式と,背景統計を収集する予備的ネットワークを備えたディープラーニングに基づく分離フレームワークを提案する。
我々は様々な信号対雑音比で、見知らぬ音のクラスを混合した広範囲な実験を行った。
論文 参考訳(メタデータ) (2020-05-11T06:59:46Z) - Semantic Object Prediction and Spatial Sound Super-Resolution with
Binaural Sounds [106.87299276189458]
人間は視覚的および聴覚的手がかりを統合することで、オブジェクトを強く認識し、ローカライズすることができる。
この研究は、純粋に音に基づく、音生成対象の密接なセマンティックラベリングのためのアプローチを開発する。
論文 参考訳(メタデータ) (2020-03-09T15:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。