論文の概要: OmniAudio: Generating Spatial Audio from 360-Degree Video
- arxiv url: http://arxiv.org/abs/2504.14906v1
- Date: Mon, 21 Apr 2025 07:21:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 19:09:43.378249
- Title: OmniAudio: Generating Spatial Audio from 360-Degree Video
- Title(参考訳): OmniAudio:360度ビデオから空間オーディオを生成する
- Authors: Huadai Liu, Tianyi Luo, Qikai Jiang, Kaicheng Luo, Peiwen Sun, Jialei Wan, Rongjie Huang, Qian Chen, Wen Wang, Xiangtai Li, Shiliang Zhang, Zhijie Yan, Zhou Zhao, Wei Xue,
- Abstract要約: 我々は,360度ビデオから空間音声を生成する新しいタスクである360V2SAを導入する。
本稿では,空間音声データと大規模非空間データの両方を用いて,自己教師付き事前学習を利用する新しいフレームワークOmniAudioを提案する。
実験により、OmniAudioは客観的指標と主観的指標の両方で最先端のパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 90.83754780084242
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Traditional video-to-audio generation techniques primarily focus on field-of-view (FoV) video and non-spatial audio, often missing the spatial cues necessary for accurately representing sound sources in 3D environments. To address this limitation, we introduce a novel task, 360V2SA, to generate spatial audio from 360-degree videos, specifically producing First-order Ambisonics (FOA) audio - a standard format for representing 3D spatial audio that captures sound directionality and enables realistic 3D audio reproduction. We first create Sphere360, a novel dataset tailored for this task that is curated from real-world data. We also design an efficient semi-automated pipeline for collecting and cleaning paired video-audio data. To generate spatial audio from 360-degree video, we propose a novel framework OmniAudio, which leverages self-supervised pre-training using both spatial audio data (in FOA format) and large-scale non-spatial data. Furthermore, OmniAudio features a dual-branch framework that utilizes both panoramic and FoV video inputs to capture comprehensive local and global information from 360-degree videos. Experimental results demonstrate that OmniAudio achieves state-of-the-art performance across both objective and subjective metrics on Sphere360. Code and datasets will be released at https://github.com/liuhuadai/OmniAudio. The demo page is available at https://OmniAudio-360V2SA.github.io.
- Abstract(参考訳): 従来のビデオ・オーディオ生成技術は主にフィールド・オブ・ビュー(FoV)ビデオと非空間オーディオに焦点を当て、しばしば3D環境における音源の正確な表現に必要な空間的手がかりを欠いている。
この制限に対処するために,360度ビデオから空間オーディオを生成する新しいタスクである360V2SAを導入する。
私たちはまず、現実世界のデータからキュレートされたこのタスクに適した新しいデータセットであるSphere360を作成します。
また、ペア化されたビデオオーディオデータの収集とクリーニングを行うための効率的な半自動パイプラインを設計する。
360度ビデオから空間オーディオを生成するために,空間オーディオデータ(FOAフォーマット)と大規模非空間データの両方を用いて,自己教師付き事前学習を利用する新しいフレームワークOmniAudioを提案する。
さらにOmniAudioは、パノラマとFoVの両方のビデオ入力を利用して、360度ビデオから包括的なローカルおよびグローバルな情報をキャプチャするデュアルブランチフレームワークを備えている。
実験結果から,OmniAudioはSphere360上での客観的および主観的メトリクスの両面において,最先端のパフォーマンスを達成することが示された。
コードとデータセットはhttps://github.com/liuhuadai/OmniAudio.comで公開される。
デモページはhttps://OmniAudio-360V2SA.github.ioで公開されている。
関連論文リスト
- Aligned Better, Listen Better for Audio-Visual Large Language Models [21.525317311280205]
ビデオには本質的に音声が含まれており、視覚に情報を提供する。
ビデオ大言語モデル(ビデオ-LLM)は多くのオーディオ中心の設定に遭遇する。
既存のモデルは、音声情報を利用するのに欠陥があり、理解と幻覚が弱い。
論文 参考訳(メタデータ) (2025-04-02T18:47:09Z) - Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities [72.91296768332163]
本稿では,Audio Flamingo 2 (AF2),Audio-Language Model,LongAudioを紹介した。
AF2は、20以上のベンチマークで大規模なオープンソースおよびプロプライエタリモデルを上回る3Bパラメータの小さな言語モデルで、最先端のパフォーマンスを実現している。
音声理解を長い音声セグメント(30秒から5分)に拡張し、長い音声キャプションと質問応答タスクに基づいてALMをトレーニングするための大規模で斬新なデータセットであるLongAudioを提案する。
論文 参考訳(メタデータ) (2025-03-06T00:10:26Z) - DOA-Aware Audio-Visual Self-Supervised Learning for Sound Event Localization and Detection [16.92604848450722]
本稿では,第1次アンビソニクス(FOA)マイクロホンで捉えた空間的音声記録のための音事象定位・検出(SELD)について述べる。
本稿では,ディープニューラルネットワーク(DNN)の特徴抽出部分を自己教師型で事前学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-30T08:31:58Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - CATR: Combinatorial-Dependence Audio-Queried Transformer for
Audio-Visual Video Segmentation [43.562848631392384]
音声視覚映像のセグメンテーションは、画像フレーム内の音生成対象のピクセルレベルのマップを生成することを目的としている。
本稿では,それぞれの時間的・空間的次元から音声と映像の特徴を結合した非結合型音声・映像依存性を提案する。
論文 参考訳(メタデータ) (2023-09-18T12:24:02Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - Telling Left from Right: Learning Spatial Correspondence of Sight and
Sound [16.99266133458188]
本稿では,音声ストリーム内の空間情報を視覚ストリーム内の音源の位置に合わせるという原理を活用するための,新たな自己教師型タスクを提案する。
我々は、左右のオーディオチャンネルが反転したかどうかを判断するためにモデルを訓練し、視覚とオーディオストリーム間の空間的ローカライゼーションについて推論を強制する。
空間対応の理解により、3つの視覚的タスクにおいてモデルの性能が向上し、教師付きベースラインや自己教師付きベースラインよりも定量的に向上することが実証された。
論文 参考訳(メタデータ) (2020-06-11T04:00:24Z) - VGGSound: A Large-scale Audio-Visual Dataset [160.1604237188594]
オープンソースのメディアからオーディオデータセットを作成するために,スケーラブルなパイプラインを提案する。
このパイプラインを使用して、VGGSoundデータセットを310のオーディオクラス用に210万本以上のビデオでキュレートする。
得られたデータセットは、音声認識モデルのトレーニングと評価に使用することができる。
論文 参考訳(メタデータ) (2020-04-29T17:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。