論文の概要: VideoFusion: A Spatio-Temporal Collaborative Network for Mutli-modal Video Fusion and Restoration
- arxiv url: http://arxiv.org/abs/2503.23359v1
- Date: Sun, 30 Mar 2025 08:27:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.081453
- Title: VideoFusion: A Spatio-Temporal Collaborative Network for Mutli-modal Video Fusion and Restoration
- Title(参考訳): VideoFusion: Mutli-Modalビデオフュージョンとリカバリのための時空間協調ネットワーク
- Authors: Linfeng Tang, Yeda Wang, Meiqi Gong, Zizhuo Li, Yuxin Deng, Xunpeng Yi, Chunyu Li, Han Xu, Hao Zhang, Jiayi Ma,
- Abstract要約: 既存のマルチセンサー融合研究は、主にビデオではなく複数の画像からの補完を統合している。
VideoFusionは、時間的相補性と時間的ダイナミクスを利用して、文脈的時間的コヒーレントなビデオを生成する。
大規模な実験により、VideoFusionは、シーケンシャルなシナリオで既存の画像指向の融合パラダイムより優れていることが判明した。
- 参考スコア(独自算出の注目度): 26.59510171451438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compared to images, videos better align with real-world acquisition scenarios and possess valuable temporal cues. However, existing multi-sensor fusion research predominantly integrates complementary context from multiple images rather than videos. This primarily stems from two factors: 1) the scarcity of large-scale multi-sensor video datasets, limiting research in video fusion, and 2) the inherent difficulty of jointly modeling spatial and temporal dependencies in a unified framework. This paper proactively compensates for the dilemmas. First, we construct M3SVD, a benchmark dataset with $220$ temporally synchronized and spatially registered infrared-visible video pairs comprising 153,797 frames, filling the data gap for the video fusion community. Secondly, we propose VideoFusion, a multi-modal video fusion model that fully exploits cross-modal complementarity and temporal dynamics to generate spatio-temporally coherent videos from (potentially degraded) multi-modal inputs. Specifically, 1) a differential reinforcement module is developed for cross-modal information interaction and enhancement, 2) a complete modality-guided fusion strategy is employed to adaptively integrate multi-modal features, and 3) a bi-temporal co-attention mechanism is devised to dynamically aggregate forward-backward temporal contexts to reinforce cross-frame feature representations. Extensive experiments reveal that VideoFusion outperforms existing image-oriented fusion paradigms in sequential scenarios, effectively mitigating temporal inconsistency and interference.
- Abstract(参考訳): 画像と比較すると、ビデオは現実世界の獲得シナリオとよく一致し、貴重な時間的手がかりを持っている。
しかし、既存のマルチセンサー融合研究は、主にビデオではなく複数の画像から補完的なコンテキストを統合する。
これは主に2つの要因に由来する。
1)大規模マルチセンサービデオデータセットの不足、ビデオ融合研究の制限、
2)統合された枠組みにおける空間的依存と時間的依存を共同でモデル化することの難しさ。
本論文はジレンマを積極的に補償する。
まず,時間的同期と空間的に登録された153,797フレームからなる赤外線可視ビデオペアを用いたベンチマークデータセットM3SVDを構築し,ビデオ融合コミュニティのデータギャップを埋める。
第2に,マルチモーダルビデオ融合モデルであるVideoFusionを提案する。これは,多モーダル入力から時空間コヒーレントなビデオを生成するために,クロスモーダルな相補性と時間的ダイナミクスを完全に活用する。
具体的には
1) クロスモーダル情報インタラクションと強化のための差分強化モジュールを開発する。
2)マルチモーダル特徴を適応的に統合するための完全モダリティ誘導核融合戦略が採用されている。
3)双方向の時間的コアテンション機構は,前後の時間的文脈を動的に集約し,フレーム間特徴表現の強化を図っている。
大規模な実験により、VideoFusionは、シーケンシャルなシナリオにおいて既存の画像指向の融合パラダイムよりも優れており、時間的矛盾と干渉を効果的に軽減していることが明らかになった。
関連論文リスト
- Exploiting Inter-Sample Correlation and Intra-Sample Redundancy for Partially Relevant Video Retrieval [5.849812241074385]
PRVRは、テキストクエリに関連するターゲットビデオを取得することを目的としている。
既存の手法は、セマンティック空間を構築するために、ペア化されたビデオとテキストクエリを粗く整列する。
サンプル間相関とサンプル内冗長性を体系的に活用する新しいPRVRフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-28T09:52:46Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - Towards Scalable Modeling of Compressed Videos for Efficient Action Recognition [6.168286187549952]
提案するハイブリッドなエンドツーエンドフレームワークは,3つの重要な概念にまたがって学習を分解し,推論コストを先行技術に対して330倍に削減する。
実験により,本手法は最先端のビデオ認識性能を実現する軽量なアーキテクチャを実現することが示された。
論文 参考訳(メタデータ) (2025-03-17T21:13:48Z) - CFSum: A Transformer-Based Multi-Modal Video Summarization Framework With Coarse-Fine Fusion [22.58710742780161]
CFSumは、粗い微細融合を伴うトランスフォーマーベースのマルチモーダルビデオ要約フレームワークである。
CFSumはビデオ、テキスト、オーディオのモーダル機能を入力として利用し、2段階のトランスフォーマーベースの機能融合フレームワークを組み込んでいる。
論文 参考訳(メタデータ) (2025-03-01T06:13:13Z) - RepVideo: Rethinking Cross-Layer Representation for Video Generation [53.701548524818534]
テキスト・ビデオ拡散モデルのための拡張表現フレームワークであるRepVideoを提案する。
近隣層からの機能を蓄積してリッチな表現を形成することで、このアプローチはより安定したセマンティック情報をキャプチャする。
我々の実験は、RepVideoが正確な空間的外観を生成する能力を著しく向上するだけでなく、ビデオ生成における時間的一貫性も向上することを示した。
論文 参考訳(メタデータ) (2025-01-15T18:20:37Z) - Video Set Distillation: Information Diversification and Temporal Densification [68.85010825225528]
Video textbfsetsは2次元の冗長性を持つ: サンプル内およびサンプル間冗長性。
我々は,まず,サンプル内およびサンプル間冗長性に対処して,最適化された映像データを合成するビデオセット蒸留について検討する。
論文 参考訳(メタデータ) (2024-11-28T05:37:54Z) - LetsTalk: Latent Diffusion Transformer for Talking Video Synthesis [38.08071302910815]
LetsTalkは、モジュラー時間的および空間的注意機構を組み込んだ拡散トランスフォーマーで、マルチモーダルをマージし、空間的時間的一貫性を高める。
本稿では,画像,音声,映像のモダリティの違いに応じて適切な解を提案する。
我々の実験は、多様性と活力を高めた時間的コヒーレントでリアルなビデオを生成することを実証した。
論文 参考訳(メタデータ) (2024-11-24T04:46:00Z) - Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。