論文の概要: TemCoCo: Temporally Consistent Multi-modal Video Fusion with Visual-Semantic Collaboration
- arxiv url: http://arxiv.org/abs/2508.17817v1
- Date: Mon, 25 Aug 2025 09:12:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.705439
- Title: TemCoCo: Temporally Consistent Multi-modal Video Fusion with Visual-Semantic Collaboration
- Title(参考訳): TemCoCo:ビジュアル・セマンティック・コラボレーションによる時間的に一貫性のあるマルチモーダルビデオフュージョン
- Authors: Meiqi Gong, Hao Zhang, Xunpeng Yi, Linfeng Tang, Jiayi Ma,
- Abstract要約: 既存のマルチモーダル融合法は、ビデオ融合タスクに直接静的フレームベースの画像融合技術を適用する。
本稿では、時間的モデリングと視覚的セマンティックなコラボレーションを明確に組み込んだ初めてのビデオ融合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 36.255570023185506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing multi-modal fusion methods typically apply static frame-based image fusion techniques directly to video fusion tasks, neglecting inherent temporal dependencies and leading to inconsistent results across frames. To address this limitation, we propose the first video fusion framework that explicitly incorporates temporal modeling with visual-semantic collaboration to simultaneously ensure visual fidelity, semantic accuracy, and temporal consistency. First, we introduce a visual-semantic interaction module consisting of a semantic branch and a visual branch, with Dinov2 and VGG19 employed for targeted distillation, allowing simultaneous enhancement of both the visual and semantic representations. Second, we pioneer integrate the video degradation enhancement task into the video fusion pipeline by constructing a temporal cooperative module, which leverages temporal dependencies to facilitate weak information recovery. Third, to ensure temporal consistency, we embed a temporal-enhanced mechanism into the network and devise a temporal loss to guide the optimization process. Finally, we introduce two innovative evaluation metrics tailored for video fusion, aimed at assessing the temporal consistency of the generated fused videos. Extensive experimental results on public video datasets demonstrate the superiority of our method. Our code is released at https://github.com/Meiqi-Gong/TemCoCo.
- Abstract(参考訳): 既存のマルチモーダル融合法は、通常、ビデオ融合タスクに直接静的フレームベースの画像融合技術を適用し、固有の時間的依存関係を無視し、フレーム間の一貫性のない結果をもたらす。
この制限に対処するため,視覚・セマンティック協調に時間的モデリングを明示的に組み込んで,視覚的忠実度,意味的正確性,時間的一貫性を同時に確保する,初めてのビデオ融合フレームワークを提案する。
まず,意味的分岐と視覚的分岐からなる視覚・意味的相互作用モジュールを導入し,Divnov2とVGG19を標的蒸留に使用し,視覚的表現と意味的表現を同時に拡張する。
第2に、時間依存を利用して情報回復を弱める時間的協調モジュールを構築することにより、ビデオ劣化改善タスクをビデオ融合パイプラインに統合する。
第3に、時間的一貫性を確保するために、時間的拡張機構をネットワークに組み込み、時間的損失を考案して最適化プロセスを導出する。
最後に,生成した融合ビデオの時間的一貫性を評価することを目的とした,ビデオ融合に適した2つの革新的な評価指標を紹介した。
公開ビデオデータセットの大規模な実験結果から,本手法の優位性が確認された。
私たちのコードはhttps://github.com/Meiqi-Gong/TemCoCo.comで公開されています。
関連論文リスト
- Emergent Temporal Correspondences from Video Diffusion Transformers [30.83001895223298]
DiffTrackは、この問題に答えるために設計された最初の定量的分析フレームワークである。
分析の結果,特定のクエリキーの類似性がすべてではないが,時間的マッチングにおいて重要な役割を担っていることが明らかとなった。
本研究は,映像の時間的整合性を改善する新たなガイダンス法により,動画の動作向上に拡張する。
論文 参考訳(メタデータ) (2025-06-20T17:59:55Z) - A Unified Solution to Video Fusion: From Multi-Frame Learning to Benchmarking [47.312955861553995]
We propose Unified Video Fusion (UniVF), a novel framework for temporally coherent video fusion。
また,その開発を支援するために,ビデオフュージョンベンチマーク (VF-Bench) も導入した。
論文 参考訳(メタデータ) (2025-05-26T11:45:10Z) - VideoFusion: A Spatio-Temporal Collaborative Network for Multi-modal Video Fusion and Restoration [26.59510171451438]
既存のマルチセンサー融合研究は、主にビデオではなく複数の画像からの補完を統合している。
VideoFusionは、時間的相補性と時間的ダイナミクスを利用して、文脈的時間的コヒーレントなビデオを生成する。
大規模な実験により、VideoFusionは、シーケンシャルなシナリオで既存の画像指向の融合パラダイムより優れていることが判明した。
論文 参考訳(メタデータ) (2025-03-30T08:27:18Z) - Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。
当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文 参考訳(メタデータ) (2025-01-27T10:57:24Z) - Explorative Inbetweening of Time and Space [46.77750028273578]
与えられた開始フレームと終了フレームのみに基づいて映像生成を制御するために境界生成を導入する。
Time Reversal Fusionは、開始フレームと終了フレームに条件付けられた時間的に前方および後方にデノナイジングパスを融合する。
Time Reversal Fusionは、すべてのサブタスクにおける関連する作業よりも優れています。
論文 参考訳(メタデータ) (2024-03-21T17:57:31Z) - ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。
本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。
提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-03-23T17:58:05Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。