論文の概要: CounterFlow: A Two-Phase Inference-Time Sampling for Counterfactual Video Foley Generation
- arxiv url: http://arxiv.org/abs/2605.18916v2
- Date: Mon, 25 May 2026 12:15:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 22:28:52.048273
- Title: CounterFlow: A Two-Phase Inference-Time Sampling for Counterfactual Video Foley Generation
- Title(参考訳): CounterFlow: 仮想ビデオフォリー生成のための2相推論時間サンプリング
- Authors: Gyubin Lee, Junwon Lee, Juhan Nam,
- Abstract要約: Inference-time dual-phase sample scheme for pretrained flow-matching VT2A model。
フェーズ1は、視覚的に指示されたソースを抑えながら、ビデオ由来の時間構造を構築する。
フェーズ2は、ビデオコンディショニングをドロップして、ターゲットプロンプトに向かって音声の音色を形作ることに完全にフォーカスする。
- 参考スコア(独自算出の注目度): 17.978516888210542
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We investigate Counterfactual Video Foley Generation, which aims to adopt a sound-source identity that contradicts the visual evidence while remaining temporally synchronized to a silent video. Existing Video&Text-to-Audio (VT2A) models struggle with this, often remaining anchored to the visually implied sound source when video and text contents disagree. We present ConterFlow, an inference-time dual-phase sampling scheme for pretrained flow-matching VT2A models. Phase 1 builds a video-derived temporal structure while suppressing the visually implied source; Phase 2 drops video conditioning to focus entirely on shaping audio timbre toward the target prompt. ConterFlow substantially improves counterfactual Video Foley generation compared to naive negative prompting and state-of-the-art baselines. To evaluate replacement quality, we propose a metric leveraging a text-audio co-embedding space to measure both target-prompt evidence and residual visually implied source leakage. Video demonstrations and code are available at https://gyubin-lee.github.io/counterflow-demo/
- Abstract(参考訳): 本研究では,映像に時間的同期を保ちながら,視覚的証拠に矛盾する音源の同一性を採用することを目的とした,ファクトファクト・ビデオ・フォーリー・ジェネレーションについて検討する。
既存のビデオ・テキスト・トゥ・オーディオ(VT2A)モデルは、ビデオやテキストの内容が一致しない場合、しばしば視覚的に指示された音源に固定される。
Inference-time dual-phase sample scheme for pretrained flow-matching VT2A model。
第1相は、視覚的に刺激された音源を抑えつつ、映像由来の時間構造を構築し、第2相は、映像条件付けを落とし、ターゲットプロンプトに向かって音声の音色を形作ることに集中する。
ConterFlowは、否定的なプロンプトや最先端のベースラインに比べて、反ファクトのVideo Foley生成を大幅に改善する。
代替品の品質を評価するために,テキスト・オーディオの共埋め込み空間を利用して,ターゲット・プロンプト証拠と残差視覚的インリードソースリークの双方を計測する手法を提案する。
ビデオデモとコードはhttps://gyubin-lee.github.io/counterflow-demo/で公開されている。
関連論文リスト
- Foley Control: Aligning a Frozen Latent Text-to-Audio Model to Video [39.74394488889939]
Foley Controlは、ビデオ誘導型のFoleyに対する軽量なアプローチである。
事前訓練された単一モダリティモデルを凍結させ、それらの間の小さなクロスアテンションブリッジのみを学習する。
私たちはVideo-to-Foleyにフォーカスしていますが、同じブリッジデザインは、他のオーディオモダリティにも拡張できます。
論文 参考訳(メタデータ) (2025-10-24T15:49:54Z) - Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound [19.694770666874827]
音声合成はマルチメディア生産に不可欠であり、音声とビデオの同期によってユーザエクスペリエンスを向上させる。
ビデオから音声生成によるこの労働集約プロセスの自動化に関する最近の研究は、重大な課題に直面している。
本稿では,Root Mean Square (RMS) を用いた音声合成システムであるVideo-Foleyを提案する。
論文 参考訳(メタデータ) (2024-08-21T18:06:15Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Real-time Streaming Video Denoising with Bidirectional Buffers [48.57108807146537]
リアルタイムDenoisingアルゴリズムは、通常、ビデオストリームの撮影と送信にかかわるノイズを取り除くために、ユーザーデバイスに採用されている。
最近のマルチアウトプット推論は、双方向の時間的特徴を並列または繰り返しのフレームワークで伝達する。
本研究では,過去と未来の両方の時間的受容場を持つストリーミングビデオに対して,高忠実度リアルタイムデノナイズを実現するための双方向ストリーミングビデオデノナイズフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-14T14:01:03Z) - End to End Lip Synchronization with a Temporal AutoEncoder [95.94432031144716]
ビデオ中の唇の動きをオーディオストリームと同期させる問題について検討する。
両領域再帰型ニューラルネットワークを用いて最適アライメントを求める。
アプリケーションとして、既存のビデオストリームとテキストから音声までの音声を強力にアライメントする能力を実証する。
論文 参考訳(メタデータ) (2022-03-30T12:00:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。