論文の概要: Towards Local Underexposed Photo Enhancement
- arxiv url: http://arxiv.org/abs/2208.07711v2
- Date: Wed, 17 Aug 2022 01:46:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 10:31:38.733750
- Title: Towards Local Underexposed Photo Enhancement
- Title(参考訳): 局所被曝光強調に向けて
- Authors: Yizhan Huang and Xiaogang Xu
- Abstract要約: 本研究は、未公開画像強調のための新しいタスク設定を定義する。
ユーザーは入力マスクでどの領域を啓蒙するかを制御することができる。
マスクを付加チャネル(MConcat)、マスクベースのノルム化(MNorm)の2つの方法を提案する。
- 参考スコア(独自算出の注目度): 6.675491069288519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the ability of deep generative models to generate highly
realistic images, much recent work has made progress in enhancing underexposed
images globally. However, the local image enhancement approach has not been
explored, although they are requisite in the real-world scenario, e.g., fixing
local underexposure. In this work, we define a new task setting for
underexposed image enhancement where users are able to control which region to
be enlightened with an input mask. As indicated by the mask, an image can be
divided into three areas, including Masked Area A, Transition Area B, and
Unmasked Area C. As a result, Area A should be enlightened to the desired
lighting, and there shall be a smooth transition (Area B) from the enlightened
area (Area A) to the unchanged region (Area C). To finish this task, we propose
two methods: Concatenate the mask as additional channels (MConcat), Mask-based
Normlization (MNorm). While MConcat simply append the mask channels to the
input images, MNorm can dynamically enhance the spatial-varying pixels,
guaranteeing the enhanced images are consistent with the requirement indicated
by the input mask. Moreover, MConcat serves as a play-and-plug module, and can
be incorporated with existing networks, which globally enhance images, to
achieve the local enhancement. And the overall network can be trained with
three kinds of loss functions in Area A, Area B, and Area C, which are unified
for various model structures. We perform extensive experiments on public
datasets with various parametric approaches for low-light enhancement, %the
Convolutional-Neutral-Network-based model and Transformer-based model,
demonstrating the effectiveness of our methods.
- Abstract(参考訳): 深層生成モデルが高度にリアルな画像を生成する能力に触発された最近の研究は、未公開の画像を世界的に拡張する進歩を遂げている。
しかし、局所的な画像強調手法は検討されていないが、実世界のシナリオ、例えば局所的な過露出の修正には必須である。
本研究では,入力マスクでどの領域を啓蒙するかをユーザが制御できる,未公開画像強調のための新しいタスク設定を定義する。
マスクが示すように、画像は、マスク領域a、遷移領域b、未マスク領域cの3つの領域に分けられる。その結果、所望の照明により、領域aを啓蒙すべきであり、明細領域(領域a)から変化領域(領域c)への円滑な遷移(領域b)がある。
そこで本稿では,マスクを付加チャネル(MConcat),マスクベースのノームライゼーション(MNorm)の2つの手法を提案する。
MConcatは単に入力画像にマスクチャネルを付加するだけであるが、MNormは空間変化画素を動的に拡張することができ、入力マスクが示す要件に整合性があることを保証する。
さらに、MConcatはプレイ・アンド・プラグモジュールとして機能し、局所的な拡張を実現するために、画像のグローバルな拡張を行う既存のネットワークに組み込むことができる。
また、ネットワーク全体のトレーニングは、様々なモデル構造に統一されたエリアa、エリアb、エリアcの3種類の損失関数で行うことができる。
我々は,低光度拡張のためのパラメトリック手法,畳み込みニュートラルネットワークモデルおよびトランスベースモデルを用いて,公開データセットを広範囲に実験し,提案手法の有効性を実証する。
関連論文リスト
- Contrastive Localized Language-Image Pre-Training [60.4967533101887]
コントラスト言語-画像事前学習(CLIP)は、画像/テキスト表現を生成するために視覚エンコーダを訓練するための著名な方法である。
本稿では,CLIPとリージョンテキストのコントラッシブな損失とモジュールを補完することにより,CLOC(Contrastive Localized Language- Image Pre-Trening)を提案する。
CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にする。
論文 参考訳(メタデータ) (2024-10-03T17:56:09Z) - Sim-to-Real Grasp Detection with Global-to-Local RGB-D Adaptation [19.384129689848294]
本稿では,RGB-Dグリップ検出のシム・ツー・リアル問題に着目し,ドメイン適応問題として定式化する。
本稿では,RGBと深度データにおけるハイブリッドドメインギャップに対処し,マルチモーダルな特徴アライメントが不十分なグローバル・ローカルな手法を提案する。
論文 参考訳(メタデータ) (2024-03-18T06:42:38Z) - RegionGPT: Towards Region Understanding Vision Language Model [88.42271128373191]
RegionGPT(RGPT)は、複雑な地域レベルのキャプションと理解のために設計された新しいフレームワークである。
我々は、詳細な地域レベルのキャプションを備えたトレーニングセットを充実させる、自動領域キャプションデータ生成パイプラインを開発する。
本研究では,領域レベルのタスクに対して,汎用的なRGPTモデルを効果的に適用し,性能を大幅に向上させることを実証する。
論文 参考訳(メタデータ) (2024-03-04T18:58:08Z) - Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - GaitGL: Learning Discriminative Global-Local Feature Representations for
Gait Recognition [29.128348655227416]
GaitGLはグローバルローカルな歩行認識ネットワークである。
GLCLは、GFR抽出器とマスクベースのLFR抽出器からなる二重分岐構造である。
実験により、GaitGLは最先端の歩行認識方法よりも優れた性能を達成することが示された。
論文 参考訳(メタデータ) (2022-08-02T11:50:21Z) - Bagging Regional Classification Activation Maps for Weakly Supervised
Object Localization [11.25759292976175]
BagCAMsは、ローカライゼーションタスクのためのよく訓練された分類器をより良く投影するためのプラグアンドプレイ機構である。
我々のBagCAMは、地域ローカライザの集合を定義するために、提案した地域ローカライザ生成戦略を採用する。
実験により,提案したBagCAMを用いることで,ベースラインWSOL法の性能が向上することが示唆された。
論文 参考訳(メタデータ) (2022-07-16T03:03:01Z) - Region-Based Semantic Factorization in GANs [67.90498535507106]
本稿では,任意の画像領域についてGAN(Generative Adversarial Networks)が学習した潜在意味を分解するアルゴリズムを提案する。
適切に定義された一般化されたレイリー商を通して、アノテーションや訓練なしにそのような問題を解く。
様々な最先端のGANモデルに対する実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-02-19T17:46:02Z) - LODE: Deep Local Deblurring and A New Benchmark [106.80269193462712]
我々はBLur-Aware Deblurring Network(BladeNet)と呼ばれる新しいフレームワークを提案する。
ローカルブラー合成モジュールは局所的にぼやけたトレーニングペアを生成し、ローカルブラー知覚モジュールは局所的にぼやけた領域を自動的に捕捉し、Blar-guided Space Attentionモジュールは遅延ネットワークを空間的注意でガイドする。
我々は,REDS と LODE データセットの広範な実験を行い,BladeNet がPSNR を 2.5dB で改善し,SotAs を局所的に改善し,グローバルデブロアに匹敵する性能を維持していることを示す。
論文 参考訳(メタデータ) (2021-09-19T15:57:28Z) - RegionViT: Regional-to-Local Attention for Vision Transformers [17.70988054450176]
ビジョントランスフォーマー(ViT)は、画像分類における畳み込みニューラルネットワーク(CNN)に匹敵する結果を達成するための強力な能力を示している。
本稿では,ピラミッド構造を取り入れた新しい建築物を提案する。
我々のアプローチは、多くの並行処理を含む最先端のViT亜種に匹敵する、あるいは同等である。
論文 参考訳(メタデータ) (2021-06-04T19:57:11Z) - Gait Recognition via Effective Global-Local Feature Representation and
Local Temporal Aggregation [28.721376937882958]
歩行認識は最も重要な生体計測技術の一つであり、多くの分野で応用されている。
近年の歩行認識フレームワークは、人間のグローバルな外観または地域から抽出された記述子によって各歩行フレームを表現している。
歩行認識のための識別的特徴表現を実現するための新しい特徴抽出・融合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-03T04:07:13Z) - Each Part Matters: Local Patterns Facilitate Cross-view Geo-localization [54.00111565818903]
クロスビューなジオローカライゼーションは、異なるプラットフォームから同じ地理的ターゲットの画像を見つけることである。
既存の手法は通常、画像センター内の地理的ターゲットの微細な特徴をマイニングすることに集中している。
我々は、文脈情報を活用するために、ローカルパターンネットワーク(LPN)と呼ばれるシンプルで効果的なディープニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-08-26T16:06:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。