論文の概要: Wavelet-Domain Masked Image Modeling for Color-Consistent HDR Video Reconstruction
- arxiv url: http://arxiv.org/abs/2602.07393v1
- Date: Sat, 07 Feb 2026 06:19:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.599612
- Title: Wavelet-Domain Masked Image Modeling for Color-Consistent HDR Video Reconstruction
- Title(参考訳): カラー一貫性HDR映像再構成のためのウェーブレットドメインマスク画像モデリング
- Authors: Yang Zhang, Zhangkai Ni, Wenhan Yang, Hanli Wang,
- Abstract要約: 高ダイナミックレンジ(LDR)ビデオ再構成は、LDRビデオから微妙な明るさ、色、詳細を復元することを目的としている。
既存の方法は、しばしば色の不正確さと時間的不整合に悩まされる。
We propose WMNet, a novel HDR video reconstruction network that leverageing Wavelet domain Masked Image Modeling。
- 参考スコア(独自算出の注目度): 69.35623794013152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High Dynamic Range (HDR) video reconstruction aims to recover fine brightness, color, and details from Low Dynamic Range (LDR) videos. However, existing methods often suffer from color inaccuracies and temporal inconsistencies. To address these challenges, we propose WMNet, a novel HDR video reconstruction network that leverages Wavelet domain Masked Image Modeling (W-MIM). WMNet adopts a two-phase training strategy: In Phase I, W-MIM performs self-reconstruction pre-training by selectively masking color and detail information in the wavelet domain, enabling the network to develop robust color restoration capabilities. A curriculum learning scheme further refines the reconstruction process. Phase II fine-tunes the model using the pre-trained weights to improve the final reconstruction quality. To improve temporal consistency, we introduce the Temporal Mixture of Experts (T-MoE) module and the Dynamic Memory Module (DMM). T-MoE adaptively fuses adjacent frames to reduce flickering artifacts, while DMM captures long-range dependencies, ensuring smooth motion and preservation of fine details. Additionally, since existing HDR video datasets lack scene-based segmentation, we reorganize HDRTV4K into HDRTV4K-Scene, establishing a new benchmark for HDR video reconstruction. Extensive experiments demonstrate that WMNet achieves state-of-the-art performance across multiple evaluation metrics, significantly improving color fidelity, temporal coherence, and perceptual quality. The code is available at: https://github.com/eezkni/WMNet
- Abstract(参考訳): 高ダイナミックレンジ(HDR)ビデオ再構成は、低ダイナミックレンジ(LDR)ビデオから微妙な明るさ、色、詳細を復元することを目的としている。
しかし、既存の手法は、しばしば色の不正確さと時間的不整合に悩まされる。
これらの課題に対処するために、ウェーブレット領域マスクド画像モデリング(W-MIM)を利用した新しいHDRビデオ再構成ネットワークWMNetを提案する。
フェーズ1では、W-MIMはウェーブレット領域における色と詳細情報を選択的にマスキングすることで自己再構成事前訓練を行い、ネットワークが堅牢な色復元機能を開発することができる。
カリキュラム学習方式は、再構築プロセスをさらに洗練させる。
フェーズIIでは、トレーニング済みの重量を使ってモデルの微調整を行い、最終的な復元品質を向上する。
時間的整合性を改善するため,T-MoEモジュールと動的メモリモジュール(DMM)を導入する。
T-MoEは隣接するフレームを適応的に融合してフリッカリングアーティファクトを低減し、一方DMMは長距離依存を捉え、スムーズな動きと詳細の保存を確実にする。
さらに,既存のHDRビデオデータセットはシーンベースセグメンテーションを欠いているため,HDRTV4KをHDRTV4K-Sceneに再構成し,HDRビデオ再構成のための新しいベンチマークを構築した。
広汎な実験により、WMNetは複数の評価指標にまたがって最先端のパフォーマンスを実現し、色忠実度、時間的コヒーレンス、知覚品質を大幅に改善した。
コードは、https://github.com/eezkni/WMNetで入手できる。
関連論文リスト
- Reconstructing 3D Scenes in Native High Dynamic Range [82.90064638813185]
本研究では,HDR観測を直接モデル化した3次元シーン再構成法を提案する。
bf Native High Dynamic Range 3D Gaussian Splatting (NH-3DGS)を提案する。
NH-3DGSは, 再構成品質と動的レンジ保存において, 既存の手法よりも有意に優れる合成多視点HDRデータセットと実HDRデータセットの両方を実証した。
論文 参考訳(メタデータ) (2025-11-17T02:33:31Z) - Modulo Video Recovery via Selective Spatiotemporal Vision Transformer [33.84336417728034]
モジュロビデオ再構成のための第1の深層学習フレームワークを提案する。
SSViTは、効率を改善し、最も重要な領域に集中するためにトークン選択戦略を採用している。
実験により、SSViTは8ビットの折りたたみビデオから高品質な再構成を生成することが確認された。
論文 参考訳(メタデータ) (2025-11-09T12:54:32Z) - Generating Content for HDR Deghosting from Frequency View [56.103761824603644]
近年の拡散モデル (DM) はHDRイメージング分野に導入されている。
DMは画像全体を推定するために大きなモデルで広範囲の反復を必要とする。
ゴーストフリーHDRイメージングのための低周波数対応拡散(LF-Diff)モデルを提案する。
論文 参考訳(メタデータ) (2024-04-01T01:32:11Z) - Self-Supervised High Dynamic Range Imaging with Multi-Exposure Images in
Dynamic Scenes [58.66427721308464]
Selfは、訓練中にダイナミックなマルチ露光画像のみを必要とする自己教師型再構成手法である。
Selfは最先端の自己管理手法に対して優れた結果を出し、教師付き手法に匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-10-03T07:10:49Z) - LAN-HDR: Luminance-based Alignment Network for High Dynamic Range Video
Reconstruction [20.911738532410766]
本稿では,LDRフレームを特徴空間に整列させ,その特徴をHDRフレームにマージする,エンドツーエンドのHDRビデオ合成フレームワークを提案する。
トレーニングでは、フレーム再構築損失に加えて時間的損失を採用し、時間的一貫性を高め、フリッカリングを低減する。
論文 参考訳(メタデータ) (2023-08-22T01:43:00Z) - SMAE: Few-shot Learning for HDR Deghosting with Saturation-Aware Masked
Autoencoders [97.64072440883392]
そこで本研究では,SSHDRと呼ばれる2段階の訓練を通した短距離HDRイメージングを実現するための,新しい半教師付きアプローチを提案する。
以前の方法とは異なり、コンテンツを直接回復し、ゴーストを同時に除去することは、最適に達成することが難しい。
実験により、SSHDRは異なるデータセットの内外における定量的かつ定性的に最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-04-14T03:42:51Z) - Deep Progressive Feature Aggregation Network for High Dynamic Range
Imaging [24.94466716276423]
本研究では,動的シーンにおけるHDR画像の画質向上のための高度な特徴集約ネットワークを提案する。
提案手法は,高対応特徴を暗黙的にサンプリングし,それらを粗い方法で集約してアライメントする。
実験の結果,提案手法は異なるシーン下での最先端性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2022-08-04T04:37:35Z) - HDR Reconstruction from Bracketed Exposures and Events [12.565039752529797]
高品質なHDR画像の再構成は、現代の計算写真の中心にある。
特徴領域におけるブラケット画像とイベントを融合したマルチモーダルなエンドツーエンド学習型HDRイメージングシステムを提案する。
我々のフレームワークは、スライディングウィンドウを使用して入力イベントストリームをサブサンプリングすることで、イベントの時間分解能を高める。
論文 参考訳(メタデータ) (2022-03-28T15:04:41Z) - HDRUNet: Single Image HDR Reconstruction with Denoising and
Dequantization [39.82945546614887]
本研究では,空間動的エンコーダデコーダネットワークであるHDRUNetを用いて,単一画像HDR再構成のためのエンドツーエンドマッピングを学習する。
本手法は,定量的比較と視覚的品質において最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-05-27T12:12:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。