論文の概要: Low-Light Video Enhancement via Spatial-Temporal Consistent Illumination and Reflection Decomposition
- arxiv url: http://arxiv.org/abs/2405.15660v1
- Date: Fri, 24 May 2024 15:56:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-05-27 13:20:55.789701
- Title: Low-Light Video Enhancement via Spatial-Temporal Consistent Illumination and Reflection Decomposition
- Title(参考訳): 空間的一貫性イルミネーションと反射分解による低照度映像の高精細化
- Authors: Xiaogang Xu, Kun Zhou, Tao Hu, Ruixing Wang, Hujun Bao,
- Abstract要約: 低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的および静的なシーンの復元を目指している。
1つの重要な側面は、時間空間照明と外観強化バージョンに特化した一貫性の制約を定式化することである。
本稿では,レチネックスを基盤とした革新的なビデオ分解戦略について述べる。
- 参考スコア(独自算出の注目度): 68.6707284662443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-Light Video Enhancement (LLVE) seeks to restore dynamic and static scenes plagued by severe invisibility and noise. One critical aspect is formulating a consistency constraint specifically for temporal-spatial illumination and appearance enhanced versions, a dimension overlooked in existing methods. In this paper, we present an innovative video Retinex-based decomposition strategy that operates without the need for explicit supervision to delineate illumination and reflectance components. We leverage dynamic cross-frame correspondences for intrinsic appearance and enforce a scene-level continuity constraint on the illumination field to yield satisfactory consistent decomposition results. To further ensure consistent decomposition, we introduce a dual-structure enhancement network featuring a novel cross-frame interaction mechanism. This mechanism can seamlessly integrate with encoder-decoder single-frame networks, incurring minimal additional parameter costs. By supervising different frames simultaneously, this network encourages them to exhibit matching decomposition features, thus achieving the desired temporal propagation. Extensive experiments are conducted on widely recognized LLVE benchmarks, covering diverse scenarios. Our framework consistently outperforms existing methods, establishing a new state-of-the-art (SOTA) performance.
- Abstract(参考訳): 低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的および静的なシーンの復元を目指している。
1つの重要な側面は、時間空間照明と外観向上バージョンに特化した一貫性の制約を定式化することである。
本稿では,照度と反射率を規定する明示的な監督を必要とせず,Retinexベースの分解戦略を提案する。
自然界の出現に動的クロスフレーム対応を活用し,照明領域におけるシーンレベルの連続性制約を適用し,良好な一貫した分解結果を得る。
さらに一貫した分解を確保するために、新しいクロスフレーム相互作用機構を備えた二重構造拡張ネットワークを導入する。
このメカニズムはエンコーダ・デコーダの単一フレームネットワークとシームレスに統合することができ、最小限のパラメータコストを発生させる。
異なるフレームを同時に監視することにより、このネットワークは、一致する分解特性を示すことを奨励し、所望の時間的伝搬を達成する。
LLVEベンチマークでは、さまざまなシナリオをカバーする大規模な実験が行われている。
我々のフレームワークは既存のメソッドを一貫して上回り、新しい最先端(SOTA)のパフォーマンスを確立します。
関連論文リスト
- Low-Cost Test-Time Adaptation for Robust Video Editing [4.707015344498921]
ビデオ編集は、生の映像を特定の視覚的・物語的目的に沿ったコヒーレントな作品に変換するコンテンツ創造の重要な要素である。
既存のアプローチでは、複雑なモーションパターンのキャプチャの失敗による時間的不整合、UNetバックボーンアーキテクチャの制限による単純なプロンプトへの過度な適合、という2つの大きな課題に直面している。
自己教師型補助タスクによる推論中に各テストビデオの最適化をパーソナライズする軽量なテスト時間適応フレームワークであるVid-TTAを提案する。
論文 参考訳(メタデータ) (2025-07-29T14:31:17Z) - FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。
ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。
提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文 参考訳(メタデータ) (2025-06-13T07:59:52Z) - Cross-Frame Representation Alignment for Fine-Tuning Video Diffusion Models [31.138079872368532]
トレーニングデータの特定の属性を反映したビデオを生成するための、ユーザレベルでの微調整ビデオ拡散モデル(VDM)は、注目すべき課題である。
Representation Alignment (REPA)のような最近の研究は、DiTベースの画像拡散モデルの収束と品質を改善することを約束している。
フレームの隠れ状態と隣接するフレームの外部特徴を整列する新しい正規化手法であるCross-frame Representation Alignment(CREPA)を導入する。
論文 参考訳(メタデータ) (2025-06-10T20:34:47Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - Saliency-Motion Guided Trunk-Collateral Network for Unsupervised Video Object Segmentation [8.912201177914858]
Saliency-Motion Guided Trunk-Collateral Network (SMTC-Net)
動き適応型ビデオオブジェクトセグメンテーション(UVOS)のための新しいTrunk-Collateral構造を提案する。
SMTC-Netは3つのUVOSデータセットで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-04-08T11:02:14Z) - JointTuner: Appearance-Motion Adaptive Joint Training for Customized Video Generation [13.168628936598367]
JointTunerは、新しい適応型ジョイントトレーニングフレームワークである。
我々は文脈認識型ゲーティング機構を組み込んだAdaptive LoRAを開発した。
内在性外見から運動パターンを分離するために出現非依存の時間損失を導入する。
論文 参考訳(メタデータ) (2025-03-31T11:04:07Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Building a Multi-modal Spatiotemporal Expert for Zero-shot Action Recognition with CLIP [34.88916568947695]
マルチテンポラルダイナミクスを理解するための新しいCLIフレームワークを提案する。
視覚面では,効率的なダイナミック・クロスショット・アテンションを提案する。
セマンティック側では、アクション知識グラフを構築してテキスト拡張を行う。
論文 参考訳(メタデータ) (2024-12-13T06:30:52Z) - Adaptive and Temporally Consistent Gaussian Surfels for Multi-view Dynamic Reconstruction [3.9363268745580426]
AT-GSは、フレーム単位のインクリメンタル最適化により、多視点ビデオから高品質な動的曲面を再構成する新しい手法である。
連続するフレーム間の曲率写像の整合性を確保することにより、動的表面における時間的ジッタリングを低減する。
本手法は動的表面再構成の精度と時間的コヒーレンスを向上し,高忠実度空間時間新奇なビュー合成を実現する。
論文 参考訳(メタデータ) (2024-11-10T21:30:16Z) - LADDER: An Efficient Framework for Video Frame Interpolation [12.039193291203492]
ビデオフレーム補間(VFI)は、スローモーション生成、フレームレート変換、ビデオフレーム復元など、様々な応用において重要な技術である。
本稿では,効率と品質のバランスをとることを目的とした,効率的なビデオフレームフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-17T06:47:17Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Reti-Diff: Illumination Degradation Image Restoration with Retinex-based
Latent Diffusion Model [59.08821399652483]
照明劣化画像復元(IDIR)技術は、劣化した画像の視認性を改善し、劣化した照明の悪影響を軽減することを目的としている。
これらのアルゴリズムのうち、拡散モデル(DM)に基づく手法は期待できる性能を示しているが、画像レベルの分布を予測する際に、重い計算要求や画素の不一致の問題に悩まされることが多い。
我々は、コンパクトな潜在空間内でDMを活用して、簡潔な指導先を生成することを提案し、IDIRタスクのためのReti-Diffと呼ばれる新しいソリューションを提案する。
Reti-Diff は Retinex-based Latent DM (RLDM) と Retinex-Guided Transformer (RG) の2つの鍵成分からなる。
論文 参考訳(メタデータ) (2023-11-20T09:55:06Z) - Cross-Consistent Deep Unfolding Network for Adaptive All-In-One Video
Restoration [78.14941737723501]
オールインワンVRのためのクロスコンセントディープ・アンフォールディング・ネットワーク(CDUN)を提案する。
2つのカスケード手順を編成することにより、CDUNは様々な劣化に対する適応的な処理を達成する。
さらに、より隣接するフレームからの情報を活用するために、ウィンドウベースのフレーム間融合戦略を導入する。
論文 参考訳(メタデータ) (2023-09-04T14:18:00Z) - Temporal Consistency Learning of inter-frames for Video Super-Resolution [38.26035126565062]
ビデオ超解像(VSR)は、低解像度(LR)参照フレームと複数の隣接フレームから高解像度(HR)フレームを再構成することを目的としたタスクである。
既存の手法は一般に情報伝達とフレームアライメントを探求し、VSRの性能を向上させる。
本稿では,再建されたビデオの一貫性を高めるため,VSRのための時間一貫性学習ネットワーク(TCNet)を提案する。
論文 参考訳(メタデータ) (2022-11-03T08:23:57Z) - IntrinsicNeRF: Learning Intrinsic Neural Radiance Fields for Editable
Novel View Synthesis [90.03590032170169]
内在性ニューラルレンダリング法に内在性分解を導入した内在性ニューラルレイディアンス場(IntrinsicNeRF)を提案する。
そこで,本研究では,オブジェクト固有・ルームスケールシーンと合成・実単語データの両方を用いて,一貫した本質的な分解結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-02T22:45:11Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - Coarse to Fine Multi-Resolution Temporal Convolutional Network [25.08516972520265]
本稿では,シークエンス断片化問題に対処する新しいテンポラルエンコーダデコーダを提案する。
デコーダは、複数の時間分解能の暗黙のアンサンブルを持つ粗い微細構造に従う。
実験により、我々のスタンドアローンアーキテクチャは、新しい機能拡張戦略と新しい損失と共に、3つの時間的ビデオセグメンテーションベンチマークで最先端のパフォーマンスを達成していることが示された。
論文 参考訳(メタデータ) (2021-05-23T06:07:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。