論文の概要: Self-Supervised Visual Acoustic Matching
- arxiv url: http://arxiv.org/abs/2307.15064v2
- Date: Fri, 24 Nov 2023 02:58:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 03:38:40.267078
- Title: Self-Supervised Visual Acoustic Matching
- Title(参考訳): 自己監督型視覚音響マッチング
- Authors: Arjun Somayazulu, Changan Chen, Kristen Grauman
- Abstract要約: 音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
- 参考スコア(独自算出の注目度): 63.492168778869726
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Acoustic matching aims to re-synthesize an audio clip to sound as if it were
recorded in a target acoustic environment. Existing methods assume access to
paired training data, where the audio is observed in both source and target
environments, but this limits the diversity of training data or requires the
use of simulated data or heuristics to create paired samples. We propose a
self-supervised approach to visual acoustic matching where training samples
include only the target scene image and audio -- without acoustically
mismatched source audio for reference. Our approach jointly learns to
disentangle room acoustics and re-synthesize audio into the target environment,
via a conditional GAN framework and a novel metric that quantifies the level of
residual acoustic information in the de-biased audio. Training with either
in-the-wild web data or simulated data, we demonstrate it outperforms the
state-of-the-art on multiple challenging datasets and a wide variety of
real-world audio and environments.
- Abstract(参考訳): 音響マッチングは、ターゲット音響環境に録音されたような音声クリップを再合成することを目的としている。
既存の方法は、ソースとターゲット環境の両方でオーディオが観測されるペアトレーニングデータへのアクセスを前提としているが、これはトレーニングデータの多様性を制限するか、あるいはペアサンプルを作成するためにシミュレーションデータやヒューリスティックを使用する必要がある。
本研究では,対象のシーン画像と音声のみを含む視覚的音響マッチングに対する自己教師型アプローチを提案する。
提案手法は, 室内音響をアンタングル化し, ターゲット環境に再合成する手法である。条件付きGANフレームワークと, 残音情報の残音レベルを定量化するための新しい計量法である。
In-theld Webデータまたはシミュレートされたデータを使用したトレーニングでは、複数の挑戦的なデータセットと、さまざまな現実世界のオーディオおよび環境において、最先端のデータセットよりも優れています。
関連論文リスト
- AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene
Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。
音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。
本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-04T04:17:19Z) - Visual Acoustic Matching [92.91522122739845]
本稿では,音声クリップがターゲット環境に録音されたような音に変換される視覚的音響マッチングタスクを提案する。
対象の環境の画像とソースオーディオの波形が与えられた場合、その視覚的幾何学や材料によって示唆されるように、ターゲットの部屋の音響と一致するように、オーディオを再合成することが目的である。
論文 参考訳(メタデータ) (2022-02-14T17:05:22Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Exploiting Audio-Visual Consistency with Partial Supervision for Spatial
Audio Generation [45.526051369551915]
本論文では,モノラル映像を音声と視覚の要素間の関係を利用して変換するオーディオ空間化フレームワークを提案する。
ベンチマークデータセットに関する実験では,半教師ありシナリオと完全教師ありシナリオの両方において,提案フレームワークの有効性を確認した。
論文 参考訳(メタデータ) (2021-05-03T09:34:11Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Into the Wild with AudioScope: Unsupervised Audio-Visual Separation of
On-Screen Sounds [33.4237979175049]
本稿では,新しい音声-視覚的分離フレームワークであるAudioScopeを紹介する。
実際の映像からスクリーン上の音源を分離するための監督なしでトレーニングすることができる。
オープンドメインYFCC100mビデオデータから抽出したビデオクリップのデータセットを用いて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2020-11-02T17:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。