Fugu-MT 論文翻訳(概要): CCStereo: Audio-Visual Contextual and Contrastive Learning for Binaural Audio Generation

論文の概要: CCStereo: Audio-Visual Contextual and Contrastive Learning for Binaural Audio Generation

arxiv url: http://arxiv.org/abs/2501.02786v1
Date: Mon, 06 Jan 2025 06:04:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-07 16:36:51.876567
Title: CCStereo: Audio-Visual Contextual and Contrastive Learning for Binaural Audio Generation
Title（参考訳）: CCStereo:バイノーラルオーディオ生成のための環境・コントラスト学習
Authors: Yuanhong Chen, Kazuki Shimada, Christian Simon, Yukara Ikemiya, Takashi Shibuya, Yuki Mitsufuji,
Abstract要約: バイノーラルオーディオ生成(BAG)は、視覚的プロンプトを用いてモノラルオーディオをステレオオーディオに変換することを目的としている。現在のモデルは、部屋の環境に過度に適合し、きめ細かい空間的詳細を失うリスクがある。本稿では,音声-視覚条件正規化層を取り入れた新しい音声-視覚生成モデルを提案する。
参考スコア（独自算出の注目度）: 21.58489462776634
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Binaural audio generation (BAG) aims to convert monaural audio to stereo audio using visual prompts, requiring a deep understanding of spatial and semantic information. However, current models risk overfitting to room environments and lose fine-grained spatial details. In this paper, we propose a new audio-visual binaural generation model incorporating an audio-visual conditional normalisation layer that dynamically aligns the mean and variance of the target difference audio features using visual context, along with a new contrastive learning method to enhance spatial sensitivity by mining negative samples from shuffled visual features. We also introduce a cost-efficient way to utilise test-time augmentation in video data to enhance performance. Our approach achieves state-of-the-art generation accuracy on the FAIR-Play and MUSIC-Stereo benchmarks.
Abstract（参考訳）: バイノーラル音声生成(BAG)は、視覚的プロンプトを用いてモノラル音声をステレオオーディオに変換することを目的としており、空間的および意味的な情報を深く理解する必要がある。しかし、現在のモデルは、部屋の環境に過度に適合し、きめ細かい空間的詳細を失うリスクがある。本稿では,視覚的特徴から負のサンプルを抽出して空間感を高める新しいコントラスト学習手法とともに,視覚的特徴量の平均と分散を動的に整列する音声-視覚的条件正規化層を取り入れた新しい音声-視覚的バイノーラル生成モデルを提案する。また,ビデオデータにおけるテスト時間拡張を利用した性能向上のためのコスト効率向上手法も導入した。提案手法は,FAIR-Play と MUSIC-Stereo のベンチマークを用いて,最先端な生成精度を実現する。

関連論文リスト

SpatialV2A: Visual-Guided High-fidelity Spatial Audio Generation [15.901895888187711]
BinauralVGSoundは、空間的に認識されたビデオ・オーディオ生成をサポートするために設計された、最初の大規模ビデオ・バイオーラルオーディオデータセットである。このフレームワークには視覚誘導型音響空間化モジュールが組み込まれており、生成したオーディオが現実的な空間特性と層状空間深さを示すことを保証する。
論文参考訳（メタデータ） (2026-01-21T14:14:37Z)
Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation [32.24603883810094]
ステレオオーディオを空間的コンテキストで制御することは、高いデータコストと不安定な生成モデルのために依然として困難である。まず, 大規模・シミュレーションベース・GPT支援型データセットBEWO-1Mを構築し, 移動・複数音源を含む豊富な音環境と記述を行った。空間誘導を利用して,テキストや画像から没入型かつ制御可能な空間オーディオを生成する。
論文参考訳（メタデータ） (2024-10-14T16:18:29Z)
AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。 AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文参考訳（メタデータ） (2024-06-13T08:34:12Z)
AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文参考訳（メタデータ） (2023-08-23T18:20:59Z)
Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文参考訳（メタデータ） (2023-07-27T17:59:59Z)
AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis [61.07542274267568]
我々は,マルチモーダル学習のための,現実の映像シーン合成という新たな課題と,その一級のNeRFベースのアプローチについて検討する。音声伝搬の事前知識をNeRFに統合する音響認識型音声生成モジュールを提案する。本稿では,音源に対する視野方向を表す座標変換モジュールを提案する。
論文参考訳（メタデータ） (2023-02-04T04:17:19Z)
Geometry-Aware Multi-Task Learning for Binaural Audio Generation from Video [94.42811508809994]
本研究では,映像中の視覚情報に基づいてモノラル(単一チャンネル)音声を音声に変換する音声空間化手法を提案する。既存の手法では,映像フレームから直接抽出した視覚的特徴を活用するが,この手法は視覚ストリームに存在する幾何学的手がかりを明示的に切り離し,学習過程を導出する。
論文参考訳（メタデータ） (2021-11-21T19:26:45Z)
Exploiting Audio-Visual Consistency with Partial Supervision for Spatial Audio Generation [45.526051369551915]
本論文では,モノラル映像を音声と視覚の要素間の関係を利用して変換するオーディオ空間化フレームワークを提案する。ベンチマークデータセットに関する実験では,半教師ありシナリオと完全教師ありシナリオの両方において,提案フレームワークの有効性を確認した。
論文参考訳（メタデータ） (2021-05-03T09:34:11Z)
Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文参考訳（メタデータ） (2021-04-13T13:07:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。