論文の概要: FeatEnHancer: Enhancing Hierarchical Features for Object Detection and
Beyond Under Low-Light Vision
- arxiv url: http://arxiv.org/abs/2308.03594v1
- Date: Mon, 7 Aug 2023 13:52:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 13:22:08.234367
- Title: FeatEnHancer: Enhancing Hierarchical Features for Object Detection and
Beyond Under Low-Light Vision
- Title(参考訳): FeatEnHancer: オブジェクト検出のための階層的特徴の強化と低照度ビジョン
- Authors: Khurram Azeem Hashmi, Goutham Kallempudi, Didier Stricker, Muhammamd
Zeshan Afzal
- Abstract要約: FeatEnHancerは汎用的なプラグイン・アンド・プレイモジュールで、どんな低照度ビジョン・パイプラインにも組み込める。
FeatEnHancerで生成された拡張表現は、様々な低照度視覚タスクにおける結果を大幅に改善することを示す。
- 参考スコア(独自算出の注目度): 11.255962936937744
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Extracting useful visual cues for the downstream tasks is especially
challenging under low-light vision. Prior works create enhanced representations
by either correlating visual quality with machine perception or designing
illumination-degrading transformation methods that require pre-training on
synthetic datasets. We argue that optimizing enhanced image representation
pertaining to the loss of the downstream task can result in more expressive
representations. Therefore, in this work, we propose a novel module,
FeatEnHancer, that hierarchically combines multiscale features using
multiheaded attention guided by task-related loss function to create suitable
representations. Furthermore, our intra-scale enhancement improves the quality
of features extracted at each scale or level, as well as combines features from
different scales in a way that reflects their relative importance for the task
at hand. FeatEnHancer is a general-purpose plug-and-play module and can be
incorporated into any low-light vision pipeline. We show with extensive
experimentation that the enhanced representation produced with FeatEnHancer
significantly and consistently improves results in several low-light vision
tasks, including dark object detection (+5.7 mAP on ExDark), face detection
(+1.5 mAPon DARK FACE), nighttime semantic segmentation (+5.1 mIoU on ACDC ),
and video object detection (+1.8 mAP on DarkVision), highlighting the
effectiveness of enhancing hierarchical features under low-light vision.
- Abstract(参考訳): 下流タスクに有用な視覚的手がかりを抽出することは、特に低照度ビジョンでは困難である。
先行研究は、視覚品質と機械知覚を関連付けるか、合成データセットの事前学習を必要とする照明劣化変換法を設計することによって、強化された表現を作り出す。
ダウンストリームタスクの損失に関連する画像表現の最適化は、より表現力のある表現をもたらす可能性があると論じる。
そこで本研究では,タスク関連損失関数によって導かれる多元的注意を階層的に組み合わせ,適切な表現を作成する新しいモジュールであるfeatenhancerを提案する。
さらに,各尺度やレベルで抽出した特徴の質を向上させるとともに,課題の相対的重要性を反映した異なる尺度の特徴を組み合わせる。
FeatEnHancerは汎用的なプラグアンドプレイモジュールで、どんな低照度ビジョンパイプラインにも組み込める。
featenhancerで生成された拡張表現は、ダークオブジェクト検出(exdarkでは+5.7 map)、顔検出(+1.5 mapon dark face)、夜間意味セマンティクス分割(+5.1 miou on acdc)、ビデオオブジェクト検出(+1.8 map on darkvision)など、いくつかの低照度視覚タスクの結果を大幅に改善し、低照度視覚下での階層的機能向上の有効性を強調した。
関連論文リスト
- Multi-Task-oriented Nighttime Haze Imaging Enhancer for Vision-driven Measurement Systems [4.742689734374541]
ヘイズなどの逆画像条件は、画質を著しく劣化させる。
マルチタスク指向型夜間ヘイズイメージングエンハンサー(MToIE)を提案する。
MToIEは、昼間の脱毛、低照度強化、夜間の脱毛という3つのタスクを取り入れている。
論文 参考訳(メタデータ) (2025-02-11T08:22:21Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - HUPE: Heuristic Underwater Perceptual Enhancement with Semantic Collaborative Learning [62.264673293638175]
既存の水中画像強調法は主に視覚的品質の向上に重点を置いており、実際的な意味を見落としている。
視覚的品質を高め,他の下流タスクに対処する柔軟性を示す,水中知覚向上のための可逆的ネットワークHを提案する。
論文 参考訳(メタデータ) (2024-11-27T12:37:03Z) - Visual Cue Enhancement and Dual Low-Rank Adaptation for Efficient Visual Instruction Fine-Tuning [102.18178065928426]
VCE(Vision Cue Enhancement)とDual-LoRA(Dual-LoRA)の2つの新しいアプローチによる効率的な微調整フレームワークを提案する。
VCEは、マルチレベルビジュアルキューを統合することで、視覚プロジェクタを強化し、きめ細かい視覚的特徴をキャプチャするモデルの能力を向上させる。
Dual-LoRAは、命令チューニングのための2つの低ランク構造を導入し、スキルとタスク空間に学習を分離し、様々なタスクにまたがって正確な制御と効率的な適応を可能にする。
論文 参考訳(メタデータ) (2024-11-19T11:03:09Z) - ReViT: Enhancing Vision Transformers Feature Diversity with Attention Residual Connections [8.372189962601077]
視覚変換器(ViT)自己保持機構は、深い層に特徴的崩壊を特徴とする。
本稿では,ViTに基づくアーキテクチャを改良するための新たな注意学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T14:44:10Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - Semantic-aware Texture-Structure Feature Collaboration for Underwater
Image Enhancement [58.075720488942125]
水中画像の強調は海洋工学や水生ロボット工学において重要な技術として注目されている。
我々は,高レベルな意味認識事前学習モデルと協調して,効率的でコンパクトな拡張ネットワークを開発する。
また,提案手法を水中の有意な物体検出タスクに適用し,高レベルの視覚タスクに適した意味認識能力を明らかにする。
論文 参考訳(メタデータ) (2022-11-19T07:50:34Z) - Self-Aligned Concave Curve: Illumination Enhancement for Unsupervised
Adaptation [36.050270650417325]
ハイレベルビジョンのための学習可能な照明強調モデルを提案する。
実際のカメラ応答関数にインスパイアされた照明強調関数は凹凸曲線であると仮定する。
我々のモデルアーキテクチャとトレーニングデザインは相互に恩恵を受け、強力な教師なし正規-低照度適応フレームワークを形成する。
論文 参考訳(メタデータ) (2022-10-07T19:32:55Z) - Single Image Deraining via Scale-space Invariant Attention Neural
Network [58.5284246878277]
我々は,カメラに対するレインステーキの外観の視覚的変化に対処するスケールの概念に取り組む。
本稿では,画素領域よりもコンパクトでロバストな畳み込み特徴領域のマルチスケール相関を表現することを提案する。
このようにして、機能マップの最も活発な存在を、有能な特徴として要約する。
論文 参考訳(メタデータ) (2020-06-09T04:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。