論文の概要: FTPFusion: Frequency-Aware Infrared and Visible Video Fusion with Temporal Perturbation
- arxiv url: http://arxiv.org/abs/2604.01900v1
- Date: Thu, 02 Apr 2026 11:08:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.699427
- Title: FTPFusion: Frequency-Aware Infrared and Visible Video Fusion with Temporal Perturbation
- Title(参考訳): FTPFusion: 時間的摂動を伴う周波数対応赤外線・可視ビデオフュージョン
- Authors: Xilai Li, Chusheng Fang, Xiaosong Li,
- Abstract要約: FTP-Fusion(FTP-Fusion)は、時間的およびスパースな相互モーダル相互作用に基づく周波数対応赤外線および可視ビデオ融合法である。
FTP-Fusionは、空間的忠実度と時間的一貫性の両方において、複数のメトリクスにわたる最先端の手法を一貫して上回る。
- 参考スコア(独自算出の注目度): 5.5275479200431406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infrared and visible video fusion plays a critical role in intelligent surveillance and low-light monitoring. However, maintaining temporal stability while preserving spatial detail remains a fundamental challenge. Existing methods either focus on frame-wise enhancement with limited temporal modeling or rely on heavy spatio-temporal aggregation that often sacrifices high-frequency details. In this paper, we propose FTPFusion, a frequency-aware infrared and visible video fusion method based on temporal perturbation and sparse cross-modal interaction. Specifically, FTPFusion decomposes the feature representations into high-frequency and low-frequency components for collaborative modeling. The high-frequency branch performs sparse cross-modal spatio-temporal interaction to capture motion-related context and complementary details. The low-frequency branch introduces a temporal perturbation strategy to enhance robustness against complex video variations, such as flickering, jitter, and local misalignment. Furthermore, we design an offset-aware temporal consistency constraint to explicitly stabilize cross-frame representations under temporal disturbances. Extensive experiments on multiple public benchmarks demonstrate that FTPFusion consistently outperforms state-of-the-art methods across multiple metrics in both spatial fidelity and temporal consistency. The source code will be available at https://github.com/ixilai/FTPFusion.
- Abstract(参考訳): 赤外線および可視光ビデオ融合は、インテリジェントな監視と低照度監視において重要な役割を果たす。
しかし、空間的詳細を保存しながら時間的安定性を維持することは、依然として根本的な課題である。
既存の手法は、時間的モデリングに制限のあるフレームワイズ強化に焦点を当てるか、しばしば高周波の詳細を犠牲にする重い時空間集約に依存している。
本稿では、時間的摂動とスパース・クロスモーダル相互作用に基づく周波数対応赤外線・可視光融合方式FTPFusionを提案する。
具体的には、FTPFusionは、特徴表現を協調モデリングのために高周波および低周波のコンポーネントに分解する。
高周波分岐は、運動関連コンテキストと相補的詳細をキャプチャするために、スパース・クロスモーダル時空間相互作用を実行する。
低周波分岐は、フリッカリング、ジッタ、局所的不整合といった複雑なビデオの変動に対する堅牢性を高めるための時間的摂動戦略を導入する。
さらに,時間的外乱下でのフレーム間表現を明示的に安定化するために,オフセット対応の時間的整合性制約を設計する。
複数の公開ベンチマークでの大規模な実験により、FTPFusionは、空間的忠実度と時間的一貫性の両方において、複数のメトリクスにわたる最先端のメソッドを一貫して上回ることを示した。
ソースコードはhttps://github.com/ixilai/FTPFusion.comから入手できる。
関連論文リスト
- MAVFusion: Efficient Infrared and Visible Video Fusion via Motion-Aware Sparse Interaction [22.27085934763657]
赤外線および可視ビデオ融合は、赤外線画像からの物体の塩分度と、可視画像からのテクスチャの詳細とを組み合わせて、意味的に豊かな融合結果を生成する。
現在の手法はフレーム間の相互作用を導入することで時間的整合性を改善するが、高い計算コストを必要とすることが多い。
動作対応のスパースインタラクション機構を備えたエンドツーエンドビデオ融合フレームワークMAVFusionを提案する。
論文 参考訳(メタデータ) (2026-04-02T12:20:45Z) - TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events [37.273066799679135]
我々は,フレームとイベントの時間一貫性のある非同期融合を行うフレームワークであるTAPFormerを紹介した。
鍵となる革新は、離散フレーム間の時間的進化を明示的にモデル化する過渡的非同期融合機構である。
提案手法は既存のポイントトラッカーよりも優れており,しきい値内の平均画素誤差が28.2%向上している。
論文 参考訳(メタデータ) (2026-03-05T09:32:24Z) - PAS: A Training-Free Stabilizer for Temporal Encoding in Video LLMs [57.790910044227935]
ビデオLLMは時間的不整合に悩まされ、フレームタイミングの小さなシフトは注意をそらすことができ、関連するフレームを抑えることができる。
本稿では, 位相アグリゲード平滑化(PAS)について述べる。これは, 頭部に小さな反対位相オフセットを適用して, 出力を集約する学習自由機構である。
解析の結果,RoPE回転ロジットは,時間核でスケールしたコンテントドット積として近似でき,このカーネルを滑らかにすることで,小さな時間シフトに対する注意のリプシッツ安定性が得られ,マルチフェーズ平均化は,Nyquist-valid サンプリング下での頭当たりスペクトルを保ちながら高周波リップルを減衰させることがわかった。
論文 参考訳(メタデータ) (2025-11-14T05:56:47Z) - Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。
本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。
様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-25T12:23:10Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - SVDC: Consistent Direct Time-of-Flight Video Depth Completion with Frequency Selective Fusion [8.23422182642083]
軽量直接飛行(dToF)センサーはモバイルデバイス上での3Dセンシングに最適である。
本稿では,疎度dToFデータを対応するRGBガイダンスと融合させることで,SVDCと呼ばれる新しい映像深度補完手法を提案する。
本手法では, スパースdToFイメージングによる空間的曖昧性を軽減するために, 多フレーム融合方式を用いる。
論文 参考訳(メタデータ) (2025-03-03T07:32:25Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。