論文の概要: A Unified Solution to Video Fusion: From Multi-Frame Learning to Benchmarking
- arxiv url: http://arxiv.org/abs/2505.19858v1
- Date: Mon, 26 May 2025 11:45:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.393777
- Title: A Unified Solution to Video Fusion: From Multi-Frame Learning to Benchmarking
- Title(参考訳): ビデオフュージョンの統一ソリューション - マルチフレーム学習からベンチマークまで
- Authors: Zixiang Zhao, Haowen Bai, Bingxin Ke, Yukun Cui, Lilun Deng, Yulun Zhang, Kai Zhang, Konrad Schindler,
- Abstract要約: We propose Unified Video Fusion (UniVF), a novel framework for temporally coherent video fusion。
また,その開発を支援するために,ビデオフュージョンベンチマーク (VF-Bench) も導入した。
- 参考スコア(独自算出の注目度): 47.312955861553995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The real world is dynamic, yet most image fusion methods process static frames independently, ignoring temporal correlations in videos and leading to flickering and temporal inconsistency. To address this, we propose Unified Video Fusion (UniVF), a novel framework for temporally coherent video fusion that leverages multi-frame learning and optical flow-based feature warping for informative, temporally coherent video fusion. To support its development, we also introduce Video Fusion Benchmark (VF-Bench), the first comprehensive benchmark covering four video fusion tasks: multi-exposure, multi-focus, infrared-visible, and medical fusion. VF-Bench provides high-quality, well-aligned video pairs obtained through synthetic data generation and rigorous curation from existing datasets, with a unified evaluation protocol that jointly assesses the spatial quality and temporal consistency of video fusion. Extensive experiments show that UniVF achieves state-of-the-art results across all tasks on VF-Bench. Project page: https://vfbench.github.io.
- Abstract(参考訳): 現実の世界は動的だが、ほとんどの画像融合法は静的フレームを独立に処理し、ビデオの時間的相関を無視し、ひねりと時間的矛盾をもたらす。
これを解決するために,多フレーム学習と光フローに基づく特徴ワープを利用した時間的コヒーレントビデオフュージョンの新しいフレームワークUnified Video Fusion (UniVF)を提案する。
VF-Benchは、マルチ露光、マルチフォーカス、赤外線可視、医療融合の4つのビデオフュージョンタスクをカバーする最初の総合ベンチマークである。
VF-Benchは、既存のデータセットから合成データの生成と厳密なキュレーションを通じて得られる高品質で整合性の高いビデオペアを提供し、ビデオ融合の空間的品質と時間的一貫性を共同で評価する統合評価プロトコルを提供する。
広汎な実験により、UniVFはVF-Bench上の全てのタスクで最先端の結果が得られることが示された。
プロジェクトページ: https://vfbench.github.io
関連論文リスト
- VideoFusion: A Spatio-Temporal Collaborative Network for Mutli-modal Video Fusion and Restoration [26.59510171451438]
既存のマルチセンサー融合研究は、主にビデオではなく複数の画像からの補完を統合している。
VideoFusionは、時間的相補性と時間的ダイナミクスを利用して、文脈的時間的コヒーレントなビデオを生成する。
大規模な実験により、VideoFusionは、シーケンシャルなシナリオで既存の画像指向の融合パラダイムより優れていることが判明した。
論文 参考訳(メタデータ) (2025-03-30T08:27:18Z) - CFSum: A Transformer-Based Multi-Modal Video Summarization Framework With Coarse-Fine Fusion [22.58710742780161]
CFSumは、粗い微細融合を伴うトランスフォーマーベースのマルチモーダルビデオ要約フレームワークである。
CFSumはビデオ、テキスト、オーディオのモーダル機能を入力として利用し、2段階のトランスフォーマーベースの機能融合フレームワークを組み込んでいる。
論文 参考訳(メタデータ) (2025-03-01T06:13:13Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - MagDiff: Multi-Alignment Diffusion for High-Fidelity Video Generation and Editing [90.06041718086317]
我々は、高忠実度ビデオ生成と編集の両方のタスクに対して、MagDiffと呼ばれる統合多重配位拡散を提案する。
提案したMagDiffは、主観駆動アライメント、適応プロンプトアライメント、高忠実アライメントを含む3種類のアライメントを導入している。
論文 参考訳(メタデータ) (2023-11-29T03:36:07Z) - Three-Stage Cascade Framework for Blurry Video Frame Interpolation [23.38547327916875]
Blurry Video frame (BVFI)は、低フレームレートのぼやけたビデオから高フレームレートのクリアなビデオを生成することを目的としている。
BVFIメソッドは通常、すべての貴重な情報を十分に活用できないため、最終的にはパフォーマンスを損なう。
本稿では,ぼやけたビデオから有用な情報を完全に探求する,シンプルなエンドツーエンドの3段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-09T03:37:30Z) - UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for
Temporal Forgery Localization [16.963092523737593]
本稿では,時間的フォージェリー・ローカライゼーション(TFL)のための新しいフレームワークを提案し,マルチモーダル適応によるフォルジェリー・セグメントの予測を行う。
提案手法は,Lav-DF,TVIL,Psyndなど,ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-28T08:20:30Z) - Video Dehazing via a Multi-Range Temporal Alignment Network with
Physical Prior [117.6741444489174]
ビデオのデハジングは、高い可視性とコントラストでヘイズフリーフレームを回復することを目的としている。
本稿では,物理ヘイズ先行を探索し,時間的情報を集約する新しい枠組みを提案する。
大規模な屋外ビデオデハージングベンチマークデータセットを構築した。
論文 参考訳(メタデータ) (2023-03-17T03:44:17Z) - Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。
FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。
提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文 参考訳(メタデータ) (2022-01-06T02:05:32Z) - Lightweight Attentional Feature Fusion for Video Retrieval by Text [7.042239213092635]
統合フレームワーク内の両端の機能融合を目指しています。
軽量注意機能融合(LAFF)を提案する。
LAFFは、早い段階でも遅い段階でも、ビデオとテキストの両方で機能融合を行う。
論文 参考訳(メタデータ) (2021-12-03T10:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。