Fugu-MT 論文翻訳(概要): Frieren: Efficient Video-to-Audio Generation with Rectified Flow Matching

論文の概要: Frieren: Efficient Video-to-Audio Generation with Rectified Flow Matching

arxiv url: http://arxiv.org/abs/2406.00320v1
Date: Sat, 1 Jun 2024 06:40:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 07:34:33.680861
Title: Frieren: Efficient Video-to-Audio Generation with Rectified Flow Matching
Title（参考訳）: Frieren: フローマッチングによる効率的なビデオ・ツー・オーディオ生成
Authors: Yongqi Wang, Wenxiang Guo, Rongjie Huang, Jiawei Huang, Zehan Wang, Fuming You, Ruiqi Li, Zhou Zhao,
Abstract要約: Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
参考スコア（独自算出の注目度）: 51.70360630470263
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video-to-audio (V2A) generation aims to synthesize content-matching audio from silent video, and it remains challenging to build V2A models with high generation quality, efficiency, and visual-audio temporal synchrony. We propose Frieren, a V2A model based on rectified flow matching. Frieren regresses the conditional transport vector field from noise to spectrogram latent with straight paths and conducts sampling by solving ODE, outperforming autoregressive and score-based models in terms of audio quality. By employing a non-autoregressive vector field estimator based on a feed-forward transformer and channel-level cross-modal feature fusion with strong temporal alignment, our model generates audio that is highly synchronized with the input video. Furthermore, through reflow and one-step distillation with guided vector field, our model can generate decent audio in a few, or even only one sampling step. Experiments indicate that Frieren achieves state-of-the-art performance in both generation quality and temporal alignment on VGGSound, with alignment accuracy reaching 97.22%, and 6.2% improvement in inception score over the strong diffusion-based baseline. Audio samples are available at http://frieren-v2a.github.io .
Abstract（参考訳）: Video-to-audio (V2A) の生成は、サイレントビデオからコンテンツマッチング音声を合成することを目的としており、高世代品質、効率、ビジュアルオーディオ時間同期を備えたV2Aモデルを構築することは依然として困難である。本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。 Frierenは、ノイズからスペクトルへの遅延したスペクトルへの条件伝達ベクトル場を直線的な経路で回帰し、ODEを解くことでサンプリングを行い、オーディオ品質の観点から自己回帰モデルとスコアベースモデルより優れている。フィードフォワード変換器をベースとした非自己回帰ベクトル場推定器と、時間的アライメントの強いチャネルレベルのクロスモーダル特徴融合を用いて、入力ビデオと高度に同期した音声を生成する。さらに,リフローと誘導ベクトル場による一段階蒸留により,本モデルでは,数回,あるいは1回のみのサンプリングステップで良好な音声を生成できる。実験により、フリーレンはVGGSoundにおける生成品質と時間的アライメントの両方で最先端のパフォーマンスを達成し、アライメント精度は97.22%に達し、強力な拡散ベースラインよりも6.2%向上した。オーディオサンプルはhttp://frieren-v2a.github.ioで入手できる。

関連論文リスト

ALIVE: Animate Your World with Lifelike Audio-Video Generation [50.693986608051716]
ALIVEは、Soraスタイルのオーディオビデオ生成とアニメーションに事前訓練されたテキスト・トゥ・ビデオ(T2V)モデルを適用する世代モデルである。音声-視覚同期と参照アニメーションをサポートするため,共用音声-ビデオブランチによるMMDiTアーキテクチャの強化を行った。 ALIVEは優れたパフォーマンスを示し、一貫してオープンソースモデルを上回り、最先端の商用ソリューションにマッチするか、超えている。
論文参考訳（メタデータ） (2026-02-09T14:06:03Z)
Omni2Sound: Towards Unified Video-Text-to-Audio Generation [56.11583645408007]
Video-to-audio (V2A), text-to-audio (T2A), joint video-text-to-audio (VT2A) を統合した統一モデルのトレーニングは,アプリケーションの柔軟性を向上する。 SoundAtlasは大規模なデータセット(470万ペア)で、既存のベンチマークや品質の専門家よりもはるかに優れています。フレキシブルな入力モダリティをサポートする統一VT2A拡散モデルであるOmni2Soundを提案する。
論文参考訳（メタデータ） (2026-01-06T05:49:41Z)
ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation [55.76423101183408]
ViSAudioは、条件付きフローマッチングとデュアルブランチオーディオ生成アーキテクチャを利用するエンドツーエンドフレームワークである。空間浸漬による高品質なオーディオを生成し、視点の変化、音源の動き、様々な音響環境に適応する。
論文参考訳（メタデータ） (2025-12-02T18:56:12Z)
UniverSR: Unified and Versatile Audio Super-Resolution via Vocoder-Free Flow Matching [20.92242470770289]
本稿では,複雑なスペクトル係数の条件分布を捉えるために,フローマッチング生成モデルを用いた超解像の超解像化フレームワークを提案する。実験により,我々のモデルは様々なアップサンプリング要因にまたがる高忠実度48kHzのオーディオを連続的に生成することがわかった。
論文参考訳（メタデータ） (2025-10-01T11:04:53Z)
AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation [49.6922496382879]
本稿では,A2V(Video-to-Audio)生成とA2V(Audio-to-Video)生成のための統合フレームワークを提案する。我々のフレームワークの鍵は、ビデオとオーディオの拡散モデル間の双方向情報交換を容易にするFusion Blockである。
論文参考訳（メタデータ） (2024-12-19T18:57:21Z)
Autoregressive Diffusion Transformer for Text-to-Speech Synthesis [39.32761051774537]
連続空間$mathbb Rd$のベクトル列として音響を符号化し、これらの列を自己回帰的に生成する。高ビットレート連続音声表現は、ほとんど欠陥のない再構成を可能にし、我々のモデルは、ほぼ完璧な音声編集を実現できる。
論文参考訳（メタデータ） (2024-06-08T18:57:13Z)
Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文参考訳（メタデータ） (2023-09-28T13:26:26Z)
From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-02T22:14:29Z)
Diff-Foley: Synchronized Video-to-Audio Synthesis with Latent Diffusion Models [12.898486592791604]
Diff-Foley, a synchronized Video-to-Audio synthesis method with a Latent diffusion model (LDM)について述べる。我々はDiff-Foleyが現在の大規模V2Aデータセット上で最先端のV2A性能を達成することを示す。
論文参考訳（メタデータ） (2023-06-29T12:39:58Z)
SoundStorm: Efficient Parallel Audio Generation [27.121920017380273]
本研究では,効率的な非自己回帰音声生成モデルSoundStormを提案する。 SoundStormはAudioLMのセマンティックトークンとして受け取られ、双方向の注意と信頼に基づく並列デコーディングに依存している。我々は,高品質な自然な対話セグメントを合成することにより,より長いシーケンスに音声生成を拡張できることを実証する。
論文参考訳（メタデータ） (2023-05-16T17:41:25Z)
Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文参考訳（メタデータ） (2023-01-30T04:44:34Z)
MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。 MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文参考訳（メタデータ） (2022-12-19T14:11:52Z)
RAVE: A variational autoencoder for fast and high-quality neural audio synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文参考訳（メタデータ） (2021-11-09T09:07:30Z)
WaveGrad 2: Iterative Refinement for Text-to-Speech Synthesis [80.60577805727624]
WaveGrad 2は音声合成のための非自己回帰生成モデルである。最先端のニューラルTSシステムの性能に近づき、高忠実度オーディオを生成することができる。
論文参考訳（メタデータ） (2021-06-17T17:09:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。