論文の概要: SG-RIFE: Semantic-Guided Real-Time Intermediate Flow Estimation with Diffusion-Competitive Perceptual Quality
- arxiv url: http://arxiv.org/abs/2512.18241v1
- Date: Sat, 20 Dec 2025 06:50:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.246957
- Title: SG-RIFE: Semantic-Guided Real-Time Intermediate Flow Estimation with Diffusion-Competitive Perceptual Quality
- Title(参考訳): SG-RIFE:拡散競合型知覚品質を用いた意味誘導実時間中間流推定
- Authors: Pan Ben Wong, Chengli Wu, Hanyue Lu,
- Abstract要約: リアルタイムビデオフレーム補間(VFI)は、長い間、RIFEのようなフローベースの手法によって支配されてきた。
最近の拡散ベースのアプローチは、最先端の知覚品質を実現するが、禁止的なレイテンシに悩まされ、リアルタイムアプリケーションでは現実的ではない。
本稿では,凍結したDINOv3 Vision Transformerのセマンティックガイド型RIFE(SG-RIFE)について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time Video Frame Interpolation (VFI) has long been dominated by flow-based methods like RIFE, which offer high throughput but often fail in complicated scenarios involving large motion and occlusion. Conversely, recent diffusion-based approaches (e.g., Consec. BB) achieve state-of-the-art perceptual quality but suffer from prohibitive latency, rendering them impractical for real-time applications. To bridge this gap, we propose Semantic-Guided RIFE (SG-RIFE). Instead of training from scratch, we introduce a parameter-efficient fine-tuning strategy that augments a pre-trained RIFE backbone with semantic priors from a frozen DINOv3 Vision Transformer. We propose a Split-Fidelity Aware Projection Module (Split-FAPM) to compress and refine high-dimensional features, and a Deformable Semantic Fusion (DSF) module to align these semantic priors with pixel-level motion fields. Experiments on SNU-FILM demonstrate that semantic injection provides a decisive boost in perceptual fidelity. SG-RIFE outperforms diffusion-based LDMVFI in FID/LPIPS and achieves quality comparable to Consec. BB on complex benchmarks while running significantly faster, proving that semantic consistency enables flow-based methods to achieve diffusion-competitive perceptual quality in near real-time.
- Abstract(参考訳): リアルタイムビデオフレーム補間(VFI)は、RIFEのようなフローベースの手法によって長い間支配されてきた。
逆に、最近の拡散に基づくアプローチ(例:Consec. BB)は、最先端の知覚品質を実現するが、禁止的なレイテンシに悩まされ、リアルタイムアプリケーションでは実用的ではない。
このギャップを埋めるため,セマンティックガイドRIFE(SG-RIFE)を提案する。
我々は、スクラッチからトレーニングする代わりに、凍結したDINOv3 Vision Transformerのセマンティックプリミティブで事前トレーニングされたRIFEバックボーンを拡張するパラメータ効率のよい微調整戦略を導入する。
本研究では,高次元特徴を圧縮・洗練するためのスプリット・フィデリティ・アウェア・プロジェクション・モジュール (Split-FAPM) と,これらのセマンティック先行を画素レベルの運動場と整合させるデフォルマブル・セマンティック・フュージョン (DSF) モジュールを提案する。
SNU-FILMの実験は、セマンティックインジェクションが知覚の忠実度を決定的に向上させることを示した。
SG-RIFEは拡散型LDMVFIをFID/LPIPSで上回り、Consecに匹敵する品質を達成する。
複雑なベンチマークではBBが大幅に高速に動作し、セマンティック一貫性がフローベースの手法でほぼリアルタイムで拡散競合的な知覚品質を実現することを証明している。
関連論文リスト
- Error-Propagation-Free Learned Video Compression With Dual-Domain Progressive Temporal Alignment [92.57576987521107]
両ドメインのプログレッシブな時間的アライメントと品質条件の混合(QCMoE)を備えた新しい統合変換フレームワークを提案する。
QCMoEは、魅力的なR-Dパフォーマンスで連続的かつ一貫したレート制御を可能にする。
実験結果から,提案手法は最先端技術と比較して,競争力のあるR-D性能を実現することが示された。
論文 参考訳(メタデータ) (2025-12-11T09:14:51Z) - Real-Time Inference for Distributed Multimodal Systems under Communication Delay Uncertainty [37.15356899831919]
接続されたサイバー物理システムは、複数のデータストリームからのリアルタイム入力に基づいて推論を行う。
本稿では,適応時間窓を用いたニューラルインスパイアされたノンブロッキング推論パラダイムを提案する。
我々のフレームワークは、精度-遅延トレードオフをきめ細かな制御で堅牢なリアルタイム推論を実現する。
論文 参考訳(メタデータ) (2025-11-20T10:48:54Z) - Motion-aware Latent Diffusion Models for Video Frame Interpolation [51.78737270917301]
隣接するフレーム間の動き推定は、動きのあいまいさを避ける上で重要な役割を担っている。
我々は、新しい拡散フレームワーク、動き認識潜在拡散モデル(MADiff)を提案する。
提案手法は,既存手法を著しく上回る最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T05:09:56Z) - Long-term Video Frame Interpolation via Feature Propagation [95.18170372022703]
ビデオフレーム(VFI)は、まず入力間の動きを推定し、次に推定された動きで入力を目標時間にワープすることで、中間フレーム(s)を予測する。
入力シーケンス間の時間的距離が増加すると、このアプローチは最適ではない。
本稿では,従来の特徴レベルの予測を新しいモーション・トゥ・フェース・アプローチで拡張した伝搬ネットワーク(PNet)を提案する。
論文 参考訳(メタデータ) (2022-03-29T10:47:06Z) - Real-Time Intermediate Flow Estimation for Video Frame Interpolation [50.12253023531497]
RIFEはVFIのリアルタイム中間フロー推定法である。
IFNetを安定的に訓練するために、特権蒸留方式が設計されている。
RIFEはいくつかの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-11-12T10:12:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。