論文の概要: TARO: Timestep-Adaptive Representation Alignment with Onset-Aware Conditioning for Synchronized Video-to-Audio Synthesis
- arxiv url: http://arxiv.org/abs/2504.05684v1
- Date: Tue, 08 Apr 2025 04:49:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 00:13:43.053226
- Title: TARO: Timestep-Adaptive Representation Alignment with Onset-Aware Conditioning for Synchronized Video-to-Audio Synthesis
- Title(参考訳): TARO:同期ビデオ-オーディオ合成のためのオンセット・アウェア・コンディショニングによる時間適応型表現アライメント
- Authors: Tri Ton, Ji Woo Hong, Chang D. Yoo,
- Abstract要約: 本稿では,高忠実かつ時間的コヒーレントな音声合成のための新しいフレームワークTARO(Timestep-Adaptive Representation Alignment with Onset-Aware Conditioning)を提案する。
- 参考スコア(独自算出の注目度): 21.083667960310873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces Timestep-Adaptive Representation Alignment with Onset-Aware Conditioning (TARO), a novel framework for high-fidelity and temporally coherent video-to-audio synthesis. Built upon flow-based transformers, which offer stable training and continuous transformations for enhanced synchronization and audio quality, TARO introduces two key innovations: (1) Timestep-Adaptive Representation Alignment (TRA), which dynamically aligns latent representations by adjusting alignment strength based on the noise schedule, ensuring smooth evolution and improved fidelity, and (2) Onset-Aware Conditioning (OAC), which integrates onset cues that serve as sharp event-driven markers of audio-relevant visual moments to enhance synchronization with dynamic visual events. Extensive experiments on the VGGSound and Landscape datasets demonstrate that TARO outperforms prior methods, achieving relatively 53\% lower Frechet Distance (FD), 29% lower Frechet Audio Distance (FAD), and a 97.19% Alignment Accuracy, highlighting its superior audio quality and synchronization precision.
- Abstract(参考訳): 本稿では,高忠実かつ時間的コヒーレントな音声合成のための新しいフレームワークTARO(Timestep-Adaptive Representation Alignment with Onset-Aware Conditioning)を提案する。
1)音のスケジュールに基づいてアライメントの強度を調整することで遅延表現を動的に調整する時間段階適応表現アライメント(TRA)と,2)音声関連視覚モーメントのシャープなイベント駆動マーカーとして機能するオンセット・アウェア・コンディショニング(OAC)である。
VGGSoundとランドスケープのデータセットの大規模な実験は、TAROが先行手法より優れており、フレシェ距離(Frechet Distance, FD)が比較的53\%低く、フレシェオーディオ距離(Frechet Audio Distance, FD)が29%低く、アライメント精度が97.19%低いことを示し、その優れたオーディオ品質と同期精度を強調している。
関連論文リスト
- JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization [94.82127738291749]
JavisDiTは、オープンエンドのユーザープロンプトから高品質なオーディオとビデオコンテンツを同時に生成することができる。
新しいベンチマークであるJavisBenchは、さまざまなシーンと複雑な現実世界のシナリオにまたがる、10,140の高品質なテキストキャプション付きサウンドビデオで構成されている。
論文 参考訳(メタデータ) (2025-03-30T09:40:42Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - SyncDiff: Diffusion-based Talking Head Synthesis with Bottlenecked Temporal Visual Prior for Improved Synchronization [32.220603714163026]
トーキングヘッド合成(トーキングヘッドシンセシス)は、与えられた音声トラックと一致する顔の動きを再構成する。
近年の研究では, この課題に対して, GANベースおよび拡散ベースモデルによりSOTA(State-of-the-art)性能が達成されている。
本稿では,情報ボトルネックとAVHuBERTから抽出した顔インフォーマティブ音声特徴を有する時間的ポーズフレームを用いて,拡散モデルを改善するための簡易かつ効果的なSyncDiffを提案する。
論文 参考訳(メタデータ) (2025-03-17T16:58:53Z) - Tuning-Free Multi-Event Long Video Generation via Synchronized Coupled Sampling [81.37449968164692]
ビデオ全体にわたってデノイングパスを同期する新しい推論フレームワークであるシンクロナイズド結合サンプリング(SynCoS)を提案する。
提案手法は, シームレスな局所遷移を保証し, グローバルコヒーレンスを強制する2つの相補的なサンプリング戦略を組み合わせる。
大規模な実験により、SynCoSは、よりスムーズな遷移とより優れた長距離コヒーレンスを実現し、マルチイベント長ビデオ生成を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-03-11T16:43:45Z) - Stereo Any Video: Temporally Consistent Stereo Matching [15.876953256378224]
本稿では,ビデオステレオマッチングのための強力なフレームワークであるStereo Any Videoを紹介する。
カメラのポーズや光の流れといった補助的な情報に頼ることなく、空間的精度と時間的整合性を推定することができる。
主要なアーキテクチャ革新は、スムーズでロバストなコストボリュームを構成する全対対相関と、時間的コヒーレンスを改善する時間的凸アップサンプリングである。
論文 参考訳(メタデータ) (2025-03-07T16:20:36Z) - Masked Generative Video-to-Audio Transformers with Enhanced Synchronicity [12.848371604063168]
本稿では,V2A生成モデルであるMaskVATを提案する。
提案手法は,高品質なオーディオ・ビジュアル特徴とシーケンス・ツー・シーケンス並列構造を組み合わせることで,高い同期性が得られることを示す。
論文 参考訳(メタデータ) (2024-07-15T01:49:59Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Match-Stereo-Videos: Bidirectional Alignment for Consistent Dynamic Stereo Matching [17.344430840048094]
最近の学習に基づく手法では, 一つのステレオペア上での最適性能が優先され, 時間的矛盾が生じている。
本研究では,隣接フレームの双方向アライメント機構を基本動作として開発する。
既存の手法とは異なり、我々はこのタスクを局所的なマッチングとグローバルアグリゲーションとしてモデル化する。
論文 参考訳(メタデータ) (2024-03-16T01:38:28Z) - Synchformer: Efficient Synchronization from Sparse Cues [100.89656994681934]
コントリビューションには、新しい音声-視覚同期モデル、同期モデルからの抽出を分離するトレーニングが含まれる。
このアプローチは、濃密な設定とスパース設定の両方において最先端の性能を実現する。
また,100万スケールの 'in-the-wild' データセットに同期モデルのトレーニングを拡張し,解釈可能性に対するエビデンス属性技術を調査し,同期モデルの新たな機能であるオーディオ-視覚同期性について検討する。
論文 参考訳(メタデータ) (2024-01-29T18:59:55Z) - On the Audio-visual Synchronization for Lip-to-Speech Synthesis [22.407313748927393]
GRID, TCD-TIMIT, Lip2Wav などの一般的な音声視覚データセットは, データの非同期性に問題があることを示す。
このようなデータセットでリップ・トゥ・スペルのトレーニングを行うと、モデル非同期問題(つまり、生成された音声と入力ビデオの同期が切れている)がさらに引き起こされる可能性がある。
論文 参考訳(メタデータ) (2023-03-01T13:35:35Z) - Audio-Visual Synchronisation in the wild [149.84890978170174]
我々は,VGG-Sound Syncという,高い音声・視覚相関を持つテストセットを同定し,キュレートする。
任意の長さの音響信号と視覚信号のモデル化に特化して設計された,トランスフォーマーに基づく多数のアーキテクチャ変種を比較した。
我々は,新しいVGG-Sound Syncビデオデータセットにおいて,160以上の多様なクラスと一般的な音声-視覚同期のための最初のベンチマークを設定した。
論文 参考訳(メタデータ) (2021-12-08T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。