論文の概要: Beyond Boundary Frames: Audio-Visual Semantic Guidance for Context-Aware Video Interpolation
- arxiv url: http://arxiv.org/abs/2512.03590v1
- Date: Wed, 03 Dec 2025 09:22:13 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:06:13.298756
- Title: Beyond Boundary Frames: Audio-Visual Semantic Guidance for Context-Aware Video Interpolation
- Title(参考訳): 境界フレームを超えて:コンテキスト対応ビデオ補間のためのオーディオ・ビジュアル・セマンティック・ガイダンス
- Authors: Yuchen Deng, Xiuyang Wu, Hai-Tao Zheng, Jie Wang, Feidiao Yang, Yuxing Han,
- Abstract要約: BBFは、音声/視覚のセマンティクスによってガイドされるコンテキスト対応のビデオフレームフレームワークである。
BBFは、汎用的タスクとオーディオ視覚同期タスクの両方において、最先端の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 14.00347197658315
- License:
- Abstract: Handling fast, complex, and highly non-linear motion patterns has long posed challenges for video frame interpolation. Although recent diffusion-based approaches improve upon traditional optical-flow-based methods, they still struggle to cover diverse application scenarios and often fail to produce sharp, temporally consistent frames in fine-grained motion tasks such as audio-visual synchronized interpolation. To address these limitations, we introduce BBF (Beyond Boundary Frames), a context-aware video frame interpolation framework, which could be guided by audio/visual semantics. First, we enhance the input design of the interpolation model so that it can flexibly handle multiple conditional modalities, including text, audio, images, and video. Second, we propose a decoupled multimodal fusion mechanism that sequentially injects different conditional signals into a DiT backbone. Finally, to maintain the generation abilities of the foundation model, we adopt a progressive multi-stage training paradigm, where the start-end frame difference embedding is used to dynamically adjust both the data sampling and the loss weighting. Extensive experimental results demonstrate that BBF outperforms specialized state-of-the-art methods on both generic interpolation and audio-visual synchronized interpolation tasks, establishing a unified framework for video frame interpolation under coordinated multi-channel conditioning.
- Abstract(参考訳): 高速で複雑で非線形な動きパターンを扱うことは、長い間ビデオフレーム補間に課題を提起してきた。
最近の拡散に基づくアプローチは、従来の光フローベースの手法で改善されているが、様々なアプリケーションシナリオをカバーするのに苦慮し、オーディオ-視覚同期補間のような細粒度の運動タスクにおいて、シャープで時間的に一貫したフレームを生成するのに失敗することが多い。
これらの制約に対処するために,BBF (Beyond Boundary Frames) というコンテキスト対応のビデオフレーム補間フレームワークを導入する。
まず、補間モデルの入力設計を強化し、テキスト、オーディオ、画像、ビデオを含む複数の条件を柔軟に扱えるようにした。
次に,DiTバックボーンに異なる条件信号を逐次注入する疎結合多モード融合機構を提案する。
最後に,基礎モデルの生成能力を維持するために,データサンプリングと損失重み付けの両方を動的に調整するために,初期フレーム差分埋め込みを用いるプログレッシブ・マルチステージ・トレーニング・パラダイムを採用する。
大規模な実験結果から,BBFは汎用補間と音声-視覚同期補間の両方において,最先端の手法よりも優れており,コーディネートされたマルチチャンネル条件下での映像フレーム補間のための統一的な枠組みが確立されている。
関連論文リスト
- FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z) - Event-based Video Frame Interpolation with Edge Guided Motion Refinement [28.331148083668857]
本稿では,イベント信号のエッジ特徴を効果的に活用するためのエンドツーエンドE-VFI学習手法を提案する。
提案手法にはエッジガイド・アテンテーティブ(EGA)モジュールが組み込まれており,アテンテーティブアグリゲーションによって推定された映像の動きを補正する。
合成データと実データの両方を用いた実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-04-28T12:13:34Z) - ALANET: Adaptive Latent Attention Network forJoint Video Deblurring and
Interpolation [38.52446103418748]
シャープな高フレームレート映像を合成する新しいアーキテクチャであるAdaptive Latent Attention Network (ALANET)を導入する。
我々は,各フレームに最適化された表現を生成するために,潜在空間内の連続するフレーム間で自己アテンションと相互アテンションのモジュールを組み合わせる。
本手法は, より困難な問題に取り組みながら, 様々な最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2020-08-31T21:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。