論文の概要: DST-Net: A Dual-Stream Transformer with Illumination-Independent Feature Guidance and Multi-Scale Spatial Convolution for Low-Light Image Enhancement
- arxiv url: http://arxiv.org/abs/2603.16482v1
- Date: Tue, 17 Mar 2026 13:07:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.289345
- Title: DST-Net: A Dual-Stream Transformer with Illumination-Independent Feature Guidance and Multi-Scale Spatial Convolution for Low-Light Image Enhancement
- Title(参考訳): DST-Net:低照度画像強調のためのイルミネーション非依存特徴誘導とマルチスケール空間畳み込みを用いたデュアルストリーム変換器
- Authors: Yicui Shi, Yuhan Chen, Xiangfei Huang, Zhenguo Wang, Wenxuan Yu, Ying Fang,
- Abstract要約: 低照度画像強調は、薄暗い環境で視覚センサーが捉えた画像の可視性を回復することを目的としている。
本稿では,照明非依存信号の事前誘導とマルチスケール空間畳み込みに基づくDST-Netを提案する。
LOLデータセット上のPSNRは25.64dBである。
- 参考スコア(独自算出の注目度): 9.193933558950341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-light image enhancement aims to restore the visibility of images captured by visual sensors in dim environments by addressing their inherent signal degradations, such as luminance attenuation and structural corruption. Although numerous algorithms attempt to improve image quality, existing methods often cause a severe loss of intrinsic signal priors. To overcome these challenges, we propose a Dual-Stream Transformer Network (DST-Net) based on illumination-agnostic signal prior guidance and multi-scale spatial convolutions. First, to address the loss of critical signal features under low-light conditions, we design a feature extraction module. This module integrates Difference of Gaussians (DoG), LAB color space transformations, and VGG-16 for texture extraction, utilizing decoupled illumination-agnostic features as signal priors to continuously guide the enhancement process. Second, we construct a dual-stream interaction architecture. By employing a cross-modal attention mechanism, the network leverages the extracted priors to dynamically rectify the deteriorated signal representation of the enhanced image, ultimately achieving iterative enhancement through differentiable curve estimation. Furthermore, to overcome the inability of existing methods to preserve fine structures and textures, we propose a Multi-Scale Spatial Fusion Block (MSFB) featuring pseudo-3D and 3D gradient operator convolutions. This module integrates explicit gradient operators to recover high-frequency edges while capturing inter-channel spatial correlations via multi-scale spatial convolutions. Extensive evaluations and ablation studies demonstrate that DST-Net achieves superior performance in subjective visual quality and objective metrics. Specifically, our method achieves a PSNR of 25.64 dB on the LOL dataset. Subsequent validation on the LSRW dataset further confirms its robust cross-scene generalization.
- Abstract(参考訳): 低照度画像強調は、輝度減衰や構造劣化などの固有の信号劣化に対処することで、薄暗い環境で視覚センサが捉えた画像の可視性を回復することを目的としている。
多くのアルゴリズムが画像の品質を向上しようと試みているが、既存の手法はしばしば本質的な信号の先行性を著しく損なう。
これらの課題を克服するために、照明非依存信号とマルチスケール空間畳み込みに基づくデュアルストリームトランスフォーマーネットワーク(DST-Net)を提案する。
まず、低照度条件下での臨界信号の損失に対処するため、特徴抽出モジュールを設計する。
このモジュールは、Gaussian(DoG)、LAB色空間変換、VGG-16のテクスチャ抽出を統合し、分離された照明に依存しない特徴を信号の先行として利用し、拡張プロセスを継続的にガイドする。
第2に、デュアルストリームインタラクションアーキテクチャを構築する。
クロスモーダルアテンション機構を用いることで、抽出した先行情報を利用して、強調画像の劣化した信号表現を動的に修正し、最終的に微分可能な曲線推定により反復的エンハンスメントを実現する。
さらに, ファイン構造とテクスチャを保存するための既存手法の欠如を克服するため, 擬似3次元および3次元勾配演算子畳み込みを特徴とするマルチスケール空間融合ブロック(MSFB)を提案する。
このモジュールは明示的な勾配演算子を統合し、マルチスケール空間畳み込みによってチャネル間空間相関を捉えながら高周波エッジを復元する。
DST-Netは主観的視覚的品質と客観的指標において優れた性能を発揮することを示す。
具体的には, LOLデータセット上で25.64dBのPSNRを実現する。
その後のLSRWデータセットの検証は、その堅牢なクロスシーンの一般化をさらに確認する。
関連論文リスト
- One-Shot Refiner: Boosting Feed-forward Novel View Synthesis via One-Step Diffusion [57.824020826432815]
スパース画像から高忠実性ノベルビュー合成(NVS)を実現するための新しいフレームワークを提案する。
ViTバックボーンによって制限されることなく高解像度画像を処理できるデュアルドメイン詳細知覚モジュールを設計する。
我々は,修復過程において高周波の詳細を保存できる特徴誘導拡散ネットワークを開発した。
論文 参考訳(メタデータ) (2026-01-20T17:11:55Z) - MSF: Efficient Diffusion Model Via Multi-Scale Latent Factorize [18.73205699076486]
マルチスケールの潜在因数分解を利用した拡散フレームワークを提案する。
我々のフレームワークは、事前訓練された変分オートエンコーダから遅延する特徴を低周波ベース信号に分解する。
提案アーキテクチャは,残差学習段階におけるサンプリングステップの削減を容易にする。
論文 参考訳(メタデータ) (2025-01-23T03:18:23Z) - Super-Resolution for Remote Sensing Imagery via the Coupling of a Variational Model and Deep Learning [20.697932997351813]
リモートセンシング画像再構成のための勾配誘導マルチフレーム超解像(MFSR)フレームワーク
リモートセンシング画像再構成のための新しい勾配誘導型マルチフレーム超解像(MFSR)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-13T04:19:48Z) - CVT-xRF: Contrastive In-Voxel Transformer for 3D Consistent Radiance Fields from Sparse Inputs [65.80187860906115]
スパース入力によるNeRFの性能向上のための新しい手法を提案する。
まず, サンプル線が, 3次元空間内の特定のボクセルと交差することを保証するために, ボクセルを用いた放射線サンプリング戦略を採用する。
次に、ボクセル内の追加点をランダムにサンプリングし、トランスフォーマーを適用して各線上の他の点の特性を推測し、ボリュームレンダリングに組み込む。
論文 参考訳(メタデータ) (2024-03-25T15:56:17Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - Reti-Diff: Illumination Degradation Image Restoration with Retinex-based
Latent Diffusion Model [59.08821399652483]
照明劣化画像復元(IDIR)技術は、劣化した画像の視認性を改善し、劣化した照明の悪影響を軽減することを目的としている。
これらのアルゴリズムのうち、拡散モデル(DM)に基づく手法は期待できる性能を示しているが、画像レベルの分布を予測する際に、重い計算要求や画素の不一致の問題に悩まされることが多い。
我々は、コンパクトな潜在空間内でDMを活用して、簡潔な指導先を生成することを提案し、IDIRタスクのためのReti-Diffと呼ばれる新しいソリューションを提案する。
Reti-Diff は Retinex-based Latent DM (RLDM) と Retinex-Guided Transformer (RG) の2つの鍵成分からなる。
論文 参考訳(メタデータ) (2023-11-20T09:55:06Z) - S^2-Transformer for Mask-Aware Hyperspectral Image Reconstruction [59.39343894089959]
トランスフォーマー再構成バックエンドを備えたスナップショット圧縮撮像器(CASSI)は、高忠実度センシング性能を示す。
空間的およびスペクトル的アテンションデザインは ハイパースペクトルモデリングの限界を示します
パラレルアテンション設計とマスク認識学習戦略により実装された空間スペクトル(S2-)変換器を提案する。
論文 参考訳(メタデータ) (2022-09-24T19:26:46Z) - D$^\text{2}$UF: Deep Coded Aperture Design and Unrolling Algorithm for
Compressive Spectral Image Fusion [22.0246327137227]
本稿では,低空間分解能符号化開口スペクトル撮像器 (CASSI) アーキテクチャと高空間分解能マルチスペクトルカラーフィルタアレイ (MCFA) システムの圧縮測定の融合について述べる。
本稿では,従来のCSIFと異なり,エンド・ツー・エンド(E2E)方式でセンサアーキテクチャと再構成ネットワークを協調的に最適化する手法を提案する。
論文 参考訳(メタデータ) (2022-05-24T15:39:34Z) - SFANet: A Spectrum-aware Feature Augmentation Network for
Visible-Infrared Person Re-Identification [12.566284647658053]
クロスモダリティマッチング問題に対するSFANetという新しいスペクトル認識特徴量化ネットワークを提案する。
grayscale-spectrumイメージで学習すると、モダリティの不一致を低減し、内部構造関係を検出することができる。
特徴レベルでは、特定および粉砕可能な畳み込みブロックの数のバランスをとることにより、従来の2ストリームネットワークを改善します。
論文 参考訳(メタデータ) (2021-02-24T08:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。