論文の概要: FeatEnHancer: Enhancing Hierarchical Features for Object Detection and
Beyond Under Low-Light Vision
- arxiv url: http://arxiv.org/abs/2308.03594v1
- Date: Mon, 7 Aug 2023 13:52:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 13:22:08.234367
- Title: FeatEnHancer: Enhancing Hierarchical Features for Object Detection and
Beyond Under Low-Light Vision
- Title(参考訳): FeatEnHancer: オブジェクト検出のための階層的特徴の強化と低照度ビジョン
- Authors: Khurram Azeem Hashmi, Goutham Kallempudi, Didier Stricker, Muhammamd
Zeshan Afzal
- Abstract要約: FeatEnHancerは汎用的なプラグイン・アンド・プレイモジュールで、どんな低照度ビジョン・パイプラインにも組み込める。
FeatEnHancerで生成された拡張表現は、様々な低照度視覚タスクにおける結果を大幅に改善することを示す。
- 参考スコア(独自算出の注目度): 11.255962936937744
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Extracting useful visual cues for the downstream tasks is especially
challenging under low-light vision. Prior works create enhanced representations
by either correlating visual quality with machine perception or designing
illumination-degrading transformation methods that require pre-training on
synthetic datasets. We argue that optimizing enhanced image representation
pertaining to the loss of the downstream task can result in more expressive
representations. Therefore, in this work, we propose a novel module,
FeatEnHancer, that hierarchically combines multiscale features using
multiheaded attention guided by task-related loss function to create suitable
representations. Furthermore, our intra-scale enhancement improves the quality
of features extracted at each scale or level, as well as combines features from
different scales in a way that reflects their relative importance for the task
at hand. FeatEnHancer is a general-purpose plug-and-play module and can be
incorporated into any low-light vision pipeline. We show with extensive
experimentation that the enhanced representation produced with FeatEnHancer
significantly and consistently improves results in several low-light vision
tasks, including dark object detection (+5.7 mAP on ExDark), face detection
(+1.5 mAPon DARK FACE), nighttime semantic segmentation (+5.1 mIoU on ACDC ),
and video object detection (+1.8 mAP on DarkVision), highlighting the
effectiveness of enhancing hierarchical features under low-light vision.
- Abstract(参考訳): 下流タスクに有用な視覚的手がかりを抽出することは、特に低照度ビジョンでは困難である。
先行研究は、視覚品質と機械知覚を関連付けるか、合成データセットの事前学習を必要とする照明劣化変換法を設計することによって、強化された表現を作り出す。
ダウンストリームタスクの損失に関連する画像表現の最適化は、より表現力のある表現をもたらす可能性があると論じる。
そこで本研究では,タスク関連損失関数によって導かれる多元的注意を階層的に組み合わせ,適切な表現を作成する新しいモジュールであるfeatenhancerを提案する。
さらに,各尺度やレベルで抽出した特徴の質を向上させるとともに,課題の相対的重要性を反映した異なる尺度の特徴を組み合わせる。
FeatEnHancerは汎用的なプラグアンドプレイモジュールで、どんな低照度ビジョンパイプラインにも組み込める。
featenhancerで生成された拡張表現は、ダークオブジェクト検出(exdarkでは+5.7 map)、顔検出(+1.5 mapon dark face)、夜間意味セマンティクス分割(+5.1 miou on acdc)、ビデオオブジェクト検出(+1.8 map on darkvision)など、いくつかの低照度視覚タスクの結果を大幅に改善し、低照度視覚下での階層的機能向上の有効性を強調した。
関連論文リスト
- Visual Cue Enhancement and Dual Low-Rank Adaptation for Efficient Visual Instruction Fine-Tuning [102.18178065928426]
VCE(Vision Cue Enhancement)とDual-LoRA(Dual-LoRA)の2つの新しいアプローチによる効率的な微調整フレームワークを提案する。
VCEは、マルチレベルビジュアルキューを統合することで、視覚プロジェクタを強化し、きめ細かい視覚的特徴をキャプチャするモデルの能力を向上させる。
Dual-LoRAは、命令チューニングのための2つの低ランク構造を導入し、スキルとタスク空間に学習を分離し、様々なタスクにまたがって正確な制御と効率的な適応を可能にする。
論文 参考訳(メタデータ) (2024-11-19T11:03:09Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - MaeFuse: Transferring Omni Features with Pretrained Masked Autoencoders for Infrared and Visible Image Fusion via Guided Training [57.18758272617101]
MaeFuseは、赤外線および可視画像融合(IVIF)用に設計された新しいオートエンコーダモデルである
提案モデルでは,MAE(Masked Autoencoders)の事前訓練エンコーダを用いて,低レベル再構成と高レベル視覚タスクのためのオムニ特徴抽出機能を備えている。
MaeFuseは、融合技術という領域で新しい視点を導入するだけでなく、様々な公開データセットで顕著なパフォーマンスで際立っている。
論文 参考訳(メタデータ) (2024-04-17T02:47:39Z) - ReViT: Enhancing Vision Transformers Feature Diversity with Attention Residual Connections [8.372189962601077]
視覚変換器(ViT)自己保持機構は、深い層に特徴的崩壊を特徴とする。
本稿では,ViTに基づくアーキテクチャを改良するための新たな注意学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T14:44:10Z) - A Non-Uniform Low-Light Image Enhancement Method with Multi-Scale
Attention Transformer and Luminance Consistency Loss [11.585269110131659]
低照度画像強調は、薄暗い環境で収集された画像の知覚を改善することを目的としている。
既存の方法では、識別された輝度情報を適応的に抽出することができず、露光過多や露光過多を容易に引き起こすことができる。
MSATrというマルチスケールアテンション変換器を提案し,光バランスの局所的・グローバル的特徴を十分に抽出し,視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-12-27T10:07:11Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - Semantic-aware Texture-Structure Feature Collaboration for Underwater
Image Enhancement [58.075720488942125]
水中画像の強調は海洋工学や水生ロボット工学において重要な技術として注目されている。
我々は,高レベルな意味認識事前学習モデルと協調して,効率的でコンパクトな拡張ネットワークを開発する。
また,提案手法を水中の有意な物体検出タスクに適用し,高レベルの視覚タスクに適した意味認識能力を明らかにする。
論文 参考訳(メタデータ) (2022-11-19T07:50:34Z) - Self-Aligned Concave Curve: Illumination Enhancement for Unsupervised
Adaptation [36.050270650417325]
ハイレベルビジョンのための学習可能な照明強調モデルを提案する。
実際のカメラ応答関数にインスパイアされた照明強調関数は凹凸曲線であると仮定する。
我々のモデルアーキテクチャとトレーニングデザインは相互に恩恵を受け、強力な教師なし正規-低照度適応フレームワークを形成する。
論文 参考訳(メタデータ) (2022-10-07T19:32:55Z) - Single Image Deraining via Scale-space Invariant Attention Neural
Network [58.5284246878277]
我々は,カメラに対するレインステーキの外観の視覚的変化に対処するスケールの概念に取り組む。
本稿では,画素領域よりもコンパクトでロバストな畳み込み特徴領域のマルチスケール相関を表現することを提案する。
このようにして、機能マップの最も活発な存在を、有能な特徴として要約する。
論文 参考訳(メタデータ) (2020-06-09T04:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。