論文の概要: A Unified Audio-Visual Learning Framework for Localization, Separation,
and Recognition
- arxiv url: http://arxiv.org/abs/2305.19458v1
- Date: Tue, 30 May 2023 23:53:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 19:18:50.517968
- Title: A Unified Audio-Visual Learning Framework for Localization, Separation,
and Recognition
- Title(参考訳): 定位・分離・認識のための統一音声・視覚学習フレームワーク
- Authors: Shentong Mo, Pedro Morgado
- Abstract要約: 本研究では,統合型音声視覚学習フレームワーク(OneAVM)を提案する。
OneAVMは、共有オーディオ視覚エンコーダと3つの目標でトレーニングされたタスク固有のデコーダで構成される。
MUSIC、VGG-Instruments、VGG-Music、VGGSoundデータセットの実験では、3つのタスクすべてに対してOneAVMの有効性が示されている。
- 参考スコア(独自算出の注目度): 26.828874753756523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to accurately recognize, localize and separate sound sources is
fundamental to any audio-visual perception task. Historically, these abilities
were tackled separately, with several methods developed independently for each
task. However, given the interconnected nature of source localization,
separation, and recognition, independent models are likely to yield suboptimal
performance as they fail to capture the interdependence between these tasks. To
address this problem, we propose a unified audio-visual learning framework
(dubbed OneAVM) that integrates audio and visual cues for joint localization,
separation, and recognition. OneAVM comprises a shared audio-visual encoder and
task-specific decoders trained with three objectives. The first objective
aligns audio and visual representations through a localized audio-visual
correspondence loss. The second tackles visual source separation using a
traditional mix-and-separate framework. Finally, the third objective reinforces
visual feature separation and localization by mixing images in pixel space and
aligning their representations with those of all corresponding sound sources.
Extensive experiments on MUSIC, VGG-Instruments, VGG-Music, and VGGSound
datasets demonstrate the effectiveness of OneAVM for all three tasks,
audio-visual source localization, separation, and nearest neighbor recognition,
and empirically demonstrate a strong positive transfer between them.
- Abstract(参考訳): 音源を正確に認識し、ローカライズし、分離する能力は、あらゆる音声視覚知覚タスクに基本となる。
歴史的にこれらの能力は別々に取り組まれ、各タスクごとに複数の方法が開発されている。
しかしながら、ソースローカライゼーション、分離、認識の相互接続の性質を考えると、独立モデルはこれらのタスク間の相互依存を捕捉できないため、最適以下の性能を得る可能性が高い。
この問題に対処するために,音声と視覚の手がかりを統合し,局所化,分離,認識を行う統一型音声・視覚学習フレームワーク(oneavm)を提案する。
OneAVMは、共有オーディオ視覚エンコーダと3つの目標でトレーニングされたタスク固有のデコーダで構成される。
第1の目的は、局所的な音声-視覚対応損失を通じて、音声と視覚の表現を調整することである。
2つ目は、従来のmix-and-Separateフレームワークを使用して、ビジュアルソースの分離に取り組む。
最後に、第3の目的は、画素空間内の画像を混合し、その表現を対応するすべての音源と整合させることにより、視覚的特徴分離と位置決めを強化することである。
MUSIC、VGG-Instruments、VGG-Music、VGGSoundデータセットの広範囲にわたる実験は、音声-視覚的ソースのローカライゼーション、分離、近接認識の3つのタスクすべてにOneAVMの有効性を示し、それらの間に強い正の伝達を示す。
関連論文リスト
- Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language [77.33458847943528]
DenseAVは、ビデオ視聴のみで高解像度、意味論的、音声視覚的に整合した特徴を学習する、新しいデュアルエンコーダ基盤アーキテクチャである。
そこで本研究では,DenseAVによる単語の「意味」と音の「位置」の特定が可能であることを明らかにした。
論文 参考訳(メタデータ) (2024-06-09T03:38:21Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Learning Audio-Visual Dynamics Using Scene Graphs for Audio Source
Separation [36.38300120482868]
本稿では,シーンの3次元構造と音源の動きを利用して,より優れた音源分離を行う深層学習フレームワークであるAudio Separator and Motion Predictor(ASMP)を紹介する。
ASMPは、ソース分離品質の明確な改善を実現し、2つの挑戦的なオーディオビジュアルデータセットの事前処理よりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-29T02:55:39Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Bio-Inspired Audio-Visual Cues Integration for Visual Attention
Prediction [15.679379904130908]
視覚的注意予測(VAP)手法は、シーンを認識するための人間の選択的な注意機構をシミュレートする。
VAPタスクにはバイオインスパイアされたオーディオ・ビジュアル・キューの統合手法が提案されている。
実験は、DIEM、AVAD、Coutrot1、Coutrot2、SumMe、ETMDを含む6つの難しい視線追跡データセットで実施されている。
論文 参考訳(メタデータ) (2021-09-17T06:49:43Z) - Weakly-supervised Audio-visual Sound Source Detection and Separation [38.52168086518221]
本稿では,個々の物体の見た目と音の双方をネットワークが学習する,音声と視覚の協調手法を提案する。
音分離の文脈で弱教師付きオブジェクトセグメンテーションを導入する。
私たちのアーキテクチャはエンドツーエンドで学ぶことができ、追加の監視やバウンディングボックスの提案は必要ありません。
論文 参考訳(メタデータ) (2021-03-25T10:17:55Z) - Learning Representations from Audio-Visual Spatial Alignment [76.29670751012198]
音声・視覚コンテンツから表現を学習するための新しい自己教師型プレテキストタスクを提案する。
提案したプリテキストタスクの利点は、様々なオーディオおよびビジュアルダウンストリームタスクで実証される。
論文 参考訳(メタデータ) (2020-11-03T16:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。