論文の概要: Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition
- arxiv url: http://arxiv.org/abs/2405.15660v2
- Date: Sat, 17 May 2025 09:46:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.151103
- Title: Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition
- Title(参考訳): 空間的連続分解による低照度映像の高精細化
- Authors: Xiaogang Xu, Kun Zhou, Tao Hu, Jiafei Wu, Ruixing Wang, Hao Peng, Bei Yu,
- Abstract要約: 低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
- 参考スコア(独自算出の注目度): 52.89441679581216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-Light Video Enhancement (LLVE) seeks to restore dynamic or static scenes plagued by severe invisibility and noise. In this paper, we present an innovative video decomposition strategy that incorporates view-independent and view-dependent components to enhance the performance of LLVE. We leverage dynamic cross-frame correspondences for the view-independent term (which primarily captures intrinsic appearance) and impose a scene-level continuity constraint on the view-dependent term (which mainly describes the shading condition) to achieve consistent and satisfactory decomposition results. To further ensure consistent decomposition, we introduce a dual-structure enhancement network featuring a cross-frame interaction mechanism. By supervising different frames simultaneously, this network encourages them to exhibit matching decomposition features. This mechanism can seamlessly integrate with encoder-decoder single-frame networks, incurring minimal additional parameter costs. Extensive experiments are conducted on widely recognized LLVE benchmarks, covering diverse scenarios. Our framework consistently outperforms existing methods, establishing a new SOTA performance.
- Abstract(参考訳): 低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、LLVEの性能を高めるために、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々は、ビュー非依存項(主に内在的外観をとらえる)に対する動的クロスフレーム対応を活用し、ビュー依存項(主にシェーディング条件を記述する)にシーンレベルの連続性制約を課し、一貫性と良好な分解結果を得る。
さらに一貫した分解を確保するために,クロスフレーム相互作用機構を特徴とする二重構造拡張ネットワークを導入する。
異なるフレームを同時に監視することにより、このネットワークは、一致する分解機能を示すことを奨励する。
このメカニズムはエンコーダ・デコーダの単一フレームネットワークとシームレスに統合することができ、最小限のパラメータコストを発生させる。
LLVEベンチマークでは、さまざまなシナリオをカバーする大規模な実験が行われている。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
関連論文リスト
- JointTuner: Appearance-Motion Adaptive Joint Training for Customized Video Generation [13.168628936598367]
JointTunerは、新しい適応型ジョイントトレーニングフレームワークである。
我々は文脈認識型ゲーティング機構を組み込んだAdaptive LoRAを開発した。
内在性外見から運動パターンを分離するために出現非依存の時間損失を導入する。
論文 参考訳(メタデータ) (2025-03-31T11:04:07Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Building a Multi-modal Spatiotemporal Expert for Zero-shot Action Recognition with CLIP [34.88916568947695]
マルチテンポラルダイナミクスを理解するための新しいCLIフレームワークを提案する。
視覚面では,効率的なダイナミック・クロスショット・アテンションを提案する。
セマンティック側では、アクション知識グラフを構築してテキスト拡張を行う。
論文 参考訳(メタデータ) (2024-12-13T06:30:52Z) - Adaptive and Temporally Consistent Gaussian Surfels for Multi-view Dynamic Reconstruction [3.9363268745580426]
AT-GSは、フレーム単位のインクリメンタル最適化により、多視点ビデオから高品質な動的曲面を再構成する新しい手法である。
連続するフレーム間の曲率写像の整合性を確保することにより、動的表面における時間的ジッタリングを低減する。
本手法は動的表面再構成の精度と時間的コヒーレンスを向上し,高忠実度空間時間新奇なビュー合成を実現する。
論文 参考訳(メタデータ) (2024-11-10T21:30:16Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Reti-Diff: Illumination Degradation Image Restoration with Retinex-based
Latent Diffusion Model [59.08821399652483]
照明劣化画像復元(IDIR)技術は、劣化した画像の視認性を改善し、劣化した照明の悪影響を軽減することを目的としている。
これらのアルゴリズムのうち、拡散モデル(DM)に基づく手法は期待できる性能を示しているが、画像レベルの分布を予測する際に、重い計算要求や画素の不一致の問題に悩まされることが多い。
我々は、コンパクトな潜在空間内でDMを活用して、簡潔な指導先を生成することを提案し、IDIRタスクのためのReti-Diffと呼ばれる新しいソリューションを提案する。
Reti-Diff は Retinex-based Latent DM (RLDM) と Retinex-Guided Transformer (RG) の2つの鍵成分からなる。
論文 参考訳(メタデータ) (2023-11-20T09:55:06Z) - Cross-Consistent Deep Unfolding Network for Adaptive All-In-One Video
Restoration [78.14941737723501]
オールインワンVRのためのクロスコンセントディープ・アンフォールディング・ネットワーク(CDUN)を提案する。
2つのカスケード手順を編成することにより、CDUNは様々な劣化に対する適応的な処理を達成する。
さらに、より隣接するフレームからの情報を活用するために、ウィンドウベースのフレーム間融合戦略を導入する。
論文 参考訳(メタデータ) (2023-09-04T14:18:00Z) - Temporal Consistency Learning of inter-frames for Video Super-Resolution [38.26035126565062]
ビデオ超解像(VSR)は、低解像度(LR)参照フレームと複数の隣接フレームから高解像度(HR)フレームを再構成することを目的としたタスクである。
既存の手法は一般に情報伝達とフレームアライメントを探求し、VSRの性能を向上させる。
本稿では,再建されたビデオの一貫性を高めるため,VSRのための時間一貫性学習ネットワーク(TCNet)を提案する。
論文 参考訳(メタデータ) (2022-11-03T08:23:57Z) - IntrinsicNeRF: Learning Intrinsic Neural Radiance Fields for Editable
Novel View Synthesis [90.03590032170169]
内在性ニューラルレンダリング法に内在性分解を導入した内在性ニューラルレイディアンス場(IntrinsicNeRF)を提案する。
そこで,本研究では,オブジェクト固有・ルームスケールシーンと合成・実単語データの両方を用いて,一貫した本質的な分解結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-02T22:45:11Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - Coarse to Fine Multi-Resolution Temporal Convolutional Network [25.08516972520265]
本稿では,シークエンス断片化問題に対処する新しいテンポラルエンコーダデコーダを提案する。
デコーダは、複数の時間分解能の暗黙のアンサンブルを持つ粗い微細構造に従う。
実験により、我々のスタンドアローンアーキテクチャは、新しい機能拡張戦略と新しい損失と共に、3つの時間的ビデオセグメンテーションベンチマークで最先端のパフォーマンスを達成していることが示された。
論文 参考訳(メタデータ) (2021-05-23T06:07:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。