論文の概要: DRFusion: Drift-Resilient Temporally Consistent Infrared-Visible Video Fusion
- arxiv url: http://arxiv.org/abs/2605.25775v1
- Date: Mon, 25 May 2026 12:23:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.033635
- Title: DRFusion: Drift-Resilient Temporally Consistent Infrared-Visible Video Fusion
- Title(参考訳): DRFusion:Drift-Resilient Temporally Consistent Infrared-Visible Video Fusion
- Authors: Xingyuan Li, Haoyuan Xu, Shulin Li, Xiang Chen, Zhiying Jiang, Jinyuan Liu,
- Abstract要約: ダイナミックシーンにおける包括的認識を実現するためには、赤外線および可視ビデオ融合が不可欠である。
時間的一貫性を維持することは、依然として恐ろしい課題だ。
本研究では,歴史条件付きモーション生成としてタスクを再構成するドリフト耐性ビデオ融合法を提案する。
- 参考スコア(独自算出の注目度): 21.262410801452948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infrared and visible video fusion is essential for achieving comprehensive perception in dynamic scenes. However, maintaining temporal consistency remains a formidable challenge. Conventional methods relying on optical flow often suffer from geometric rigidity and ghosting artifacts. Moreover, standard diffusion-based fusion models typically operate in a frame-by-frame manner; when extended to autoregressive settings, they lack intrinsic temporal constraints and are prone to severe error accumulation and drifting, where minor artifacts amplify over time. To address these limitations, we propose a drift-resilient video fusion method that reformulates the task as history-conditioned motion generation. We introduce Stabilized History Guidance and Soft Temporal Anchoring to reframe temporal consistency as spectral filtering, implicitly aggregating motion dynamics without rigid alignment. Furthermore, our Decoupled Structure-Motion Adaptation strategy bridges pre-trained priors and structural constraints via two-stage training and latent refinement. Extensive experiments demonstrate that our method achieves state-of-the-art performance in both fusion quality and temporal stability.
- Abstract(参考訳): ダイナミックシーンにおける包括的認識を達成するためには、赤外線および可視ビデオ融合が不可欠である。
しかし、時間的一貫性を維持することは深刻な課題である。
従来の光学的流れに依存する手法は、しばしば幾何学的剛性やゴーストのアーチファクトに悩まされる。
さらに、標準的な拡散ベースの融合モデルは通常フレーム単位で動作し、自己回帰的な設定に拡張すると、固有の時間的制約がなく、過度なエラーの蓄積やドリフトを引き起こし、小さなアーティファクトが時間の経過とともに増幅される。
これらの制約に対処するために,歴史条件付きモーション生成としてタスクを再構成するドリフト耐性ビデオ融合法を提案する。
我々は、時間的一貫性をスペクトルフィルタリングとして再構成し、剛性アライメントのない運動力学を暗黙的に集約するために、安定化歴史ガイダンスとソフトテンポラルアンチョリングを導入する。
さらに,2段階の訓練と潜伏改良による事前訓練と構造制約を併用した非結合型構造運動適応戦略橋について検討した。
本手法は, 核融合品質と時間安定性の両面において, 最先端性能を実現することを実証した。
関連論文リスト
- ReMATF: Recurrent Motion-Adaptive Multi-scale Turbulence Mitigation for Dynamic Scenes [4.282240730573401]
大気の乱流は、幾何学的歪み、ぼかし、時間的ひねりなどの歪みを導入することで、映像の品質を著しく低下させる。
本稿では,空間的詳細と時間的安定性を保ちながら,同時に2フレームのみを使用して映像を復元する軽量なリカレントフレームワークであるReMATFを提案する。
論文 参考訳(メタデータ) (2026-05-20T17:28:49Z) - TeDiO: Temporal Diagonal Optimization for Training-Free Coherent Video Diffusion [30.705936075333465]
不整合なビデオは、中間的自己注意マップにおいて、不規則で断片化された時間的対角線を常に示している。
本稿では,これらの内部の注意パターンを規則化し,時間的一貫性を補強するトレーニング不要な推論時間手法TeDiOを紹介する。
論文 参考訳(メタデータ) (2026-05-13T21:39:50Z) - FTPFusion: Frequency-Aware Infrared and Visible Video Fusion with Temporal Perturbation [5.5275479200431406]
FTP-Fusion(FTP-Fusion)は、時間的およびスパースな相互モーダル相互作用に基づく周波数対応赤外線および可視ビデオ融合法である。
FTP-Fusionは、空間的忠実度と時間的一貫性の両方において、複数のメトリクスにわたる最先端の手法を一貫して上回る。
論文 参考訳(メタデータ) (2026-04-02T11:08:14Z) - LoCAtion: Long-time Collaborative Attention Framework for High Dynamic Range Video Reconstruction [17.88716377235245]
本稿では,脆弱な空間ワープタスクからHDR映像を生成するフレームワークであるLoCAtionを,頑健でアライメントのない協調的特徴ルーティング問題に再構成する。
Locationは最先端の視覚的品質と時間的安定性を実現し、精度と計算効率の非常に競争力のあるバランスを提供する。
論文 参考訳(メタデータ) (2026-03-15T13:34:46Z) - All-in-One Video Restoration under Smoothly Evolving Unknown Weather Degradations [102.94052335735326]
All-in-one画像復元は、単一のモデルを用いて、さまざまな未知の劣化からクリーンなイメージを復元することを目的としている。
既存のアプローチは主に、現実世界の劣化過程に自然に存在する時間的連続性を見越して、フレームワイドの劣化変動に焦点を当てている。
Smoothly Evolving Unknown Degradations (SEUD) のシナリオでは、アクティブな劣化セットと劣化強度の両方が時間とともに連続的に変化する。
論文 参考訳(メタデータ) (2026-01-02T02:20:57Z) - STCDiT: Spatio-Temporally Consistent Diffusion Transformer for High-Quality Video Super-Resolution [60.06664986365803]
我々は,事前学習したビデオ拡散モデルに基づいて構築されたビデオ超解像フレームワークSTCDiTを提案する。
複雑なカメラの動きであっても、構造的に忠実で時間的に安定した動画を劣化した入力から復元することを目的としている。
論文 参考訳(メタデータ) (2025-11-24T05:37:23Z) - DiTVR: Zero-Shot Diffusion Transformer for Video Restoration [48.97196894658511]
DiTVRはゼロショットビデオ復元フレームワークで、拡散トランスフォーマーと軌跡を意識した注意と流れ一貫したサンプルを結合する。
我々の注意機構は、光流路に沿ってトークンを整列させ、特に時間力学に最も敏感な重要な層に重点を置いている。
フローガイドされたサンプリング装置は、低周波帯域にのみデータの一貫性を注入し、キャッシュを加速させながら高周波事前保存を行う。
論文 参考訳(メタデータ) (2025-08-11T09:54:45Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。