論文の概要: DeepSPG: Exploring Deep Semantic Prior Guidance for Low-light Image Enhancement with Multimodal Learning
- arxiv url: http://arxiv.org/abs/2504.19127v1
- Date: Sun, 27 Apr 2025 06:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.143606
- Title: DeepSPG: Exploring Deep Semantic Prior Guidance for Low-light Image Enhancement with Multimodal Learning
- Title(参考訳): DeepSPG:マルチモーダル学習による低照度画像強調のための深部セマンティック事前ガイダンス
- Authors: Jialang Lu, Huayu Zhao, Huiyu Zhai, Xingxing Yang, Shini Han,
- Abstract要約: 低照度画像強調のためのRetinex画像分解に基づく新しいディープセマンティック事前誘導フレームワーク(DeepSPG)を提案する。
提案したDeepSPGは,5つのベンチマークデータセットを対象とした最先端手法と比較して,優れた性能を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has long been a belief that high-level semantics learning can benefit various downstream computer vision tasks. However, in the low-light image enhancement (LLIE) community, existing methods learn a brutal mapping between low-light and normal-light domains without considering the semantic information of different regions, especially in those extremely dark regions that suffer from severe information loss. To address this issue, we propose a new deep semantic prior-guided framework (DeepSPG) based on Retinex image decomposition for LLIE to explore informative semantic knowledge via a pre-trained semantic segmentation model and multimodal learning. Notably, we incorporate both image-level semantic prior and text-level semantic prior and thus formulate a multimodal learning framework with combinatorial deep semantic prior guidance for LLIE. Specifically, we incorporate semantic knowledge to guide the enhancement process via three designs: an image-level semantic prior guidance by leveraging hierarchical semantic features from a pre-trained semantic segmentation model; a text-level semantic prior guidance by integrating natural language semantic constraints via a pre-trained vision-language model; a multi-scale semantic-aware structure that facilitates effective semantic feature incorporation. Eventually, our proposed DeepSPG demonstrates superior performance compared to state-of-the-art methods across five benchmark datasets. The implementation details and code are publicly available at https://github.com/Wenyuzhy/DeepSPG.
- Abstract(参考訳): ハイレベルなセマンティックス学習は、様々なダウンストリームコンピュータビジョンタスクに恩恵をもたらすと長い間信じられてきた。
しかし、LLIE(low-light image enhancement)コミュニティでは、特に深刻な情報損失に悩む極暗領域において、異なる領域のセマンティック情報を考慮せずに、既存の手法で低照度領域と通常照度領域の間の残酷なマッピングを学習する。
この問題に対処するため,LLIEのRetinex画像分解に基づくディープセマンティック事前指導フレームワーク(DeepSPG)を提案し,事前学習されたセマンティックセマンティックセマンティクスモデルとマルチモーダル学習を用いて情報的意味知識を探索する。
特に、画像レベルのセマンティック先行とテキストレベルのセマンティック先行の両方を組み込んで、LLIEの深いセマンティック先行ガイダンスを組み込んだマルチモーダル学習フレームワークを定式化する。
具体的には、事前学習されたセマンティックセグメンテーションモデルから階層的セマンティック特徴を利用する画像レベルのセマンティック事前ガイダンス、事前学習されたビジョン言語モデルを介して自然言語の意味制約を統合するテキストレベルのセマンティック事前ガイダンス、効果的なセマンティック特徴の取り込みを容易にするマルチスケールセマンティック認識構造である。
最終的に、提案したDeepSPGは、5つのベンチマークデータセットの最先端メソッドと比較して優れた性能を示す。
実装の詳細とコードはhttps://github.com/Wenyuzhy/DeepSPG.comで公開されている。
関連論文リスト
- SemiDAViL: Semi-supervised Domain Adaptation with Vision-Language Guidance for Semantic Segmentation [9.311853182451289]
セマンティックセグメンテーションのための言語誘導半教師付きドメイン適応(SSDA)設定を提案する。
我々は、視覚言語モデル(VLM)に固有の意味一般化機能を活用して、相乗的枠組みを確立する。
提案手法は, 現代の SoTA (State-of-the-art) 手法に比較して, 大幅な性能向上を示す。
論文 参考訳(メタデータ) (2025-04-08T19:14:34Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Weakly-supervised Semantic Segmentation via Dual-stream Contrastive Learning of Cross-image Contextual Information [10.77139542242678]
弱教師付きセマンティックセグメンテーション(WSSS)は、画像レベルのタグのみを用いてセマンティックセグメンテーションモデルを学習することを目的としている。
現在のWSSS手法のほとんどは、価値ある画像間情報(セマンティックワイド)を無視しながら、限られた単一画像(ピクセルワイド)情報に焦点を当てている。
論文 参考訳(メタデータ) (2024-05-08T09:35:26Z) - Learning Semantic-Aware Knowledge Guidance for Low-Light Image
Enhancement [69.47143451986067]
低照度画像強調法 (LLIE) は、照明の改善方法と正常照度画像の生成方法を検討する。
既存の手法の大部分は、異なる領域のセマンティック情報を考慮せずに、グローバルかつ均一な方法で低照度画像を改善する。
セマンティックセグメンテーションモデルにカプセル化される多種多様な事前学習において、低照度強化モデルを支援する新しいセマンティック・アウェア・ナレッジ誘導フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-14T10:22:28Z) - Language-aware Domain Generalization Network for Cross-Scene
Hyperspectral Image Classification [15.842081807249416]
ハイパースペクトル画像分類における言語モードの有効性を検討する必要がある。
大規模な事前学習画像テキスト基盤モデルは、様々なダウンストリームアプリケーションで優れた性能を示している。
言語対応ドメイン一般化ネットワーク(LDGnet)を提案する。
論文 参考訳(メタデータ) (2022-09-06T10:06:10Z) - Boosting Video-Text Retrieval with Explicit High-Level Semantics [115.66219386097295]
VTRのための新しい視覚言語整合モデルHiSEを提案する。
明示的なハイレベルなセマンティクスを取り入れることで、クロスモーダル表現を改善する。
提案手法は,3つのベンチマークデータセット上での最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-08-08T15:39:54Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Semantic-Guided Representation Enhancement for Self-supervised Monocular
Trained Depth Estimation [39.845944724079814]
自己教師付き深度推定は,画像列のみを入力として,高品質の深度マップを作成する上で大きな効果を示した。
しかし、その性能は通常、限界深度表現能力のために境界領域や細い構造を持つ物体を推定する際に低下する。
局所的および大域的な深度特徴表現を促進する意味誘導深度表現拡張法を提案する。
論文 参考訳(メタデータ) (2020-12-15T02:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。