論文の概要: Cyclic Co-Learning of Sounding Object Visual Grounding and Sound
Separation
- arxiv url: http://arxiv.org/abs/2104.02026v1
- Date: Mon, 5 Apr 2021 17:30:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 16:40:11.788059
- Title: Cyclic Co-Learning of Sounding Object Visual Grounding and Sound
Separation
- Title(参考訳): 聴覚物体の視覚接地と音の分離に関する循環学習
- Authors: Yapeng Tian, Di Hu, Chenliang Xu
- Abstract要約: 音物体の視覚的接地と音声-視覚的音分離を共同学習できる循環的共学習パラダイムを提案する。
本稿では,提案フレームワークが両タスクの最近のアプローチを上回っていることを示す。
- 参考スコア(独自算出の注目度): 52.550684208734324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There are rich synchronized audio and visual events in our daily life. Inside
the events, audio scenes are associated with the corresponding visual objects;
meanwhile, sounding objects can indicate and help to separate their individual
sounds in the audio track. Based on this observation, in this paper, we propose
a cyclic co-learning (CCoL) paradigm that can jointly learn sounding object
visual grounding and audio-visual sound separation in a unified framework.
Concretely, we can leverage grounded object-sound relations to improve the
results of sound separation. Meanwhile, benefiting from discriminative
information from separated sounds, we improve training example sampling for
sounding object grounding, which builds a co-learning cycle for the two tasks
and makes them mutually beneficial. Extensive experiments show that the
proposed framework outperforms the compared recent approaches on both tasks,
and they can benefit from each other with our cyclic co-learning.
- Abstract(参考訳): 私たちの日常生活には、リッチな同期オーディオと視覚イベントがあります。
イベント内では、オーディオシーンは対応する視覚オブジェクトに関連付けられている。一方、サウンドオブジェクトは、オーディオトラック内の個々の音を指示し、分離するのに役立ちます。
そこで本稿では,この観察に基づいて,音波物体の視覚接地と視聴覚分離を協調的に学習できる循環型共学習(ccol)パラダイムを提案する。
具体的には,音場と音場の関係を利用して,音場分離の結果を改善する。
一方,分離した音からの識別情報により,2つのタスクの協調学習サイクルを構築し,相互に有益となる音場学習のためのトレーニングサンプルサンプリングを改善する。
広範な実験により,提案フレームワークは,両タスクの最近の比較アプローチを上回っており,反復学習によって相互にメリットを享受できることが示された。
関連論文リスト
- Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。
我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。
既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文 参考訳(メタデータ) (2023-04-06T09:54:06Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Weakly-supervised Audio-visual Sound Source Detection and Separation [38.52168086518221]
本稿では,個々の物体の見た目と音の双方をネットワークが学習する,音声と視覚の協調手法を提案する。
音分離の文脈で弱教師付きオブジェクトセグメンテーションを導入する。
私たちのアーキテクチャはエンドツーエンドで学ぶことができ、追加の監視やバウンディングボックスの提案は必要ありません。
論文 参考訳(メタデータ) (2021-03-25T10:17:55Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z) - Semantic Object Prediction and Spatial Sound Super-Resolution with
Binaural Sounds [106.87299276189458]
人間は視覚的および聴覚的手がかりを統合することで、オブジェクトを強く認識し、ローカライズすることができる。
この研究は、純粋に音に基づく、音生成対象の密接なセマンティックラベリングのためのアプローチを開発する。
論文 参考訳(メタデータ) (2020-03-09T15:49:01Z) - Deep Audio-Visual Learning: A Survey [53.487938108404244]
現在の音声・視覚学習タスクを4つのサブフィールドに分割する。
本稿では,各サブフィールドに残る課題だけでなく,最先端の手法についても論じる。
一般的に使用されるデータセットとパフォーマンスメトリクスを要約します。
論文 参考訳(メタデータ) (2020-01-14T13:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。