論文の概要: Affinity Mixup for Weakly Supervised Sound Event Detection
- arxiv url: http://arxiv.org/abs/2106.11233v1
- Date: Mon, 21 Jun 2021 16:25:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:05:17.675714
- Title: Affinity Mixup for Weakly Supervised Sound Event Detection
- Title(参考訳): 弱教師付き音響イベント検出のための親和性混合
- Authors: Mohammad Rasool Izadi, Robert Stevenson, Laura N. Kloepper
- Abstract要約: 本稿では,時間レベルの類似性を取り入れ,フレーム間の接続を実現するアフィニティ・ミックスアップの概念を紹介する。
提案するアフィニティ・ミックスアップ・ネットワークは,最先端技術によるイベントF1のスコアを8.2%向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The weakly supervised sound event detection problem is the task of predicting
the presence of sound events and their corresponding starting and ending points
in a weakly labeled dataset. A weak dataset associates each training sample (a
short recording) to one or more present sources. Networks that solely rely on
convolutional and recurrent layers cannot directly relate multiple frames in a
recording. Motivated by attention and graph neural networks, we introduce the
concept of an affinity mixup to incorporate time-level similarities and make a
connection between frames. This regularization technique mixes up features in
different layers using an adaptive affinity matrix. Our proposed affinity mixup
network improves over state-of-the-art techniques event-F1 scores by $8.2\%$.
- Abstract(参考訳): 弱教師付き音声イベント検出問題は、弱ラベル付きデータセットにおける音響イベントの存在とそれらに対応する開始点と終了点を予測するタスクである。
弱いデータセットは、各トレーニングサンプル(短い記録)を1つ以上の現在ソースに関連付ける。
畳み込み層とリカレント層のみに依存するネットワークは、記録中の複数のフレームに直接関連できない。
注意とグラフニューラルネットワークに動機づけられ,時間レベルの類似性を取り入れたアフィニティミックスアップの概念を導入し,フレーム間を接続する。
この正規化技法は適応親和性行列を用いて異なる層に特徴を混合する。
提案するアフィニティ・ミックスアップ・ネットワークは、最先端技術によるイベントF1スコアを8.2\%$で改善する。
関連論文リスト
- Synergistic Integration of Coordinate Network and Tensorial Feature for Improving Neural Radiance Fields from Sparse Inputs [26.901819636977912]
本稿では,低周波信号に対する強いバイアスで知られる座標ネットワークと多面表現を統合する手法を提案する。
提案手法は,スパース入力を持つ静的および動的NeRFのベースラインモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-13T15:42:46Z) - On the Equivalence of Graph Convolution and Mixup [70.0121263465133]
本稿では,グラフ畳み込みと混合手法の関係について検討する。
2つの穏やかな条件の下では、グラフの畳み込みはMixupの特別な形式と見なすことができる。
グラフ畳み込みネットワーク(GCN)と単純化グラフ畳み込み(SGC)をミックスアップの形で表現できることを証明し、数学的にこの等価性を確立する。
論文 参考訳(メタデータ) (2023-09-29T23:09:54Z) - Domain Adaptive Synapse Detection with Weak Point Annotations [63.97144211520869]
弱点アノテーションを用いたドメイン適応型シナプス検出のためのフレームワークであるAdaSynを提案する。
I SBI 2023のWASPSYNチャレンジでは、我々の手法が第1位にランクインした。
論文 参考訳(メタデータ) (2023-08-31T05:05:53Z) - Joint-Modal Label Denoising for Weakly-Supervised Audio-Visual Video
Parsing [52.2231419645482]
本稿では,弱教師付き音声・視覚ビデオ解析タスクについて述べる。
それぞれのモードに属する全ての事象を認識し、時間的境界をローカライズすることを目的としている。
論文 参考訳(メタデータ) (2022-04-25T11:41:17Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Contrastive-mixup learning for improved speaker verification [17.93491404662201]
本稿では,話者検証のためのミックスアップによるプロトタイプ損失の新しい定式化を提案する。
Mixupは、ランダムなデータポイントとラベルペアの重み付けを組み合わせた、シンプルだが効率的なデータ拡張技術である。
論文 参考訳(メタデータ) (2022-02-22T05:09:22Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - Multi-level Attention Fusion Network for Audio-visual Event Recognition [6.767885381740951]
イベント分類は本質的にシーケンシャルでマルチモーダルである。
ディープニューラルモデルは、ビデオの最も関連性の高い時間ウィンドウと/またはモダリティに動的に集中する必要がある。
イベント認識のための視覚情報と音声情報を動的に融合するアーキテクチャであるマルチレベル注意融合ネットワーク(MAFnet)を提案する。
論文 参考訳(メタデータ) (2021-06-12T10:24:52Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - Deep Convolutional and Recurrent Networks for Polyphonic Instrument
Classification from Monophonic Raw Audio Waveforms [30.3491261167433]
サウンドイベント検出とオーディオ分類タスクは、伝統的にスペクトログラムなどのオーディオ信号の時間周波数表現を通じて対処されます。
効率的な特徴抽出器としてのディープニューラルネットワークは、分類目的にオーディオ信号を直接使用可能にする。
生の波形を深層学習モデルに入力するだけで,ポリフォニック・オーディオで楽器を認識する。
論文 参考訳(メタデータ) (2021-02-13T13:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。