Fugu-MT 論文翻訳(概要): FeatEnHancer: Enhancing Hierarchical Features for Object Detection and Beyond Under Low-Light Vision

論文の概要: FeatEnHancer: Enhancing Hierarchical Features for Object Detection and Beyond Under Low-Light Vision

arxiv url: http://arxiv.org/abs/2308.03594v1
Date: Mon, 7 Aug 2023 13:52:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-08 13:22:08.234367
Title: FeatEnHancer: Enhancing Hierarchical Features for Object Detection and Beyond Under Low-Light Vision
Title（参考訳）: FeatEnHancer: オブジェクト検出のための階層的特徴の強化と低照度ビジョン
Authors: Khurram Azeem Hashmi, Goutham Kallempudi, Didier Stricker, Muhammamd Zeshan Afzal
Abstract要約: FeatEnHancerは汎用的なプラグイン・アンド・プレイモジュールで、どんな低照度ビジョン・パイプラインにも組み込める。 FeatEnHancerで生成された拡張表現は、様々な低照度視覚タスクにおける結果を大幅に改善することを示す。
参考スコア（独自算出の注目度）: 11.255962936937744
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Extracting useful visual cues for the downstream tasks is especially challenging under low-light vision. Prior works create enhanced representations by either correlating visual quality with machine perception or designing illumination-degrading transformation methods that require pre-training on synthetic datasets. We argue that optimizing enhanced image representation pertaining to the loss of the downstream task can result in more expressive representations. Therefore, in this work, we propose a novel module, FeatEnHancer, that hierarchically combines multiscale features using multiheaded attention guided by task-related loss function to create suitable representations. Furthermore, our intra-scale enhancement improves the quality of features extracted at each scale or level, as well as combines features from different scales in a way that reflects their relative importance for the task at hand. FeatEnHancer is a general-purpose plug-and-play module and can be incorporated into any low-light vision pipeline. We show with extensive experimentation that the enhanced representation produced with FeatEnHancer significantly and consistently improves results in several low-light vision tasks, including dark object detection (+5.7 mAP on ExDark), face detection (+1.5 mAPon DARK FACE), nighttime semantic segmentation (+5.1 mIoU on ACDC ), and video object detection (+1.8 mAP on DarkVision), highlighting the effectiveness of enhancing hierarchical features under low-light vision.
Abstract（参考訳）: 下流タスクに有用な視覚的手がかりを抽出することは、特に低照度ビジョンでは困難である。先行研究は、視覚品質と機械知覚を関連付けるか、合成データセットの事前学習を必要とする照明劣化変換法を設計することによって、強化された表現を作り出す。ダウンストリームタスクの損失に関連する画像表現の最適化は、より表現力のある表現をもたらす可能性があると論じる。そこで本研究では,タスク関連損失関数によって導かれる多元的注意を階層的に組み合わせ,適切な表現を作成する新しいモジュールであるfeatenhancerを提案する。さらに,各尺度やレベルで抽出した特徴の質を向上させるとともに,課題の相対的重要性を反映した異なる尺度の特徴を組み合わせる。 FeatEnHancerは汎用的なプラグアンドプレイモジュールで、どんな低照度ビジョンパイプラインにも組み込める。 featenhancerで生成された拡張表現は、ダークオブジェクト検出(exdarkでは+5.7 map)、顔検出(+1.5 mapon dark face)、夜間意味セマンティクス分割(+5.1 miou on acdc)、ビデオオブジェクト検出(+1.8 map on darkvision)など、いくつかの低照度視覚タスクの結果を大幅に改善し、低照度視覚下での階層的機能向上の有効性を強調した。

関連論文リスト

SAIGFormer: A Spatially-Adaptive Illumination-Guided Network for Low-Light Image Enhancement [58.79901582809091]
近年, トランスフォーマーを用いた低照度化手法は, 世界照明の回復に有望な進展をもたらした。近年, トランスフォーマーを用いた低照度化手法は, 世界照明の回復に有望な進展をもたらした。正確な照明復元を可能にする空間適応照明誘導変圧器フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-21T11:38:56Z)
Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文参考訳（メタデータ） (2024-12-26T05:41:31Z)
HUPE: Heuristic Underwater Perceptual Enhancement with Semantic Collaborative Learning [62.264673293638175]
既存の水中画像強調法は主に視覚的品質の向上に重点を置いており、実際的な意味を見落としている。視覚的品質を高め,他の下流タスクに対処する柔軟性を示す,水中知覚向上のための可逆的ネットワークHを提案する。
論文参考訳（メタデータ） (2024-11-27T12:37:03Z)
Visual Cue Enhancement and Dual Low-Rank Adaptation for Efficient Visual Instruction Fine-Tuning [102.18178065928426]
VCE(Vision Cue Enhancement)とDual-LoRA(Dual-LoRA)の2つの新しいアプローチによる効率的な微調整フレームワークを提案する。 VCEは、マルチレベルビジュアルキューを統合することで、視覚プロジェクタを強化し、きめ細かい視覚的特徴をキャプチャするモデルの能力を向上させる。 Dual-LoRAは、命令チューニングのための2つの低ランク構造を導入し、スキルとタスク空間に学習を分離し、様々なタスクにまたがって正確な制御と効率的な適応を可能にする。
論文参考訳（メタデータ） (2024-11-19T11:03:09Z)
VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。 VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文参考訳（メタデータ） (2024-10-21T18:10:26Z)
MaeFuse: Transferring Omni Features with Pretrained Masked Autoencoders for Infrared and Visible Image Fusion via Guided Training [57.18758272617101]
MaeFuseは、赤外線および可視画像融合(IVIF)用に設計された新しいオートエンコーダモデルである提案モデルでは,MAE(Masked Autoencoders)の事前訓練エンコーダを用いて,低レベル再構成と高レベル視覚タスクのためのオムニ特徴抽出機能を備えている。 MaeFuseは、融合技術という領域で新しい視点を導入するだけでなく、様々な公開データセットで顕著なパフォーマンスで際立っている。
論文参考訳（メタデータ） (2024-04-17T02:47:39Z)
ReViT: Enhancing Vision Transformers Feature Diversity with Attention Residual Connections [8.372189962601077]
視覚変換器(ViT)自己保持機構は、深い層に特徴的崩壊を特徴とする。本稿では,ViTに基づくアーキテクチャを改良するための新たな注意学習手法を提案する。
論文参考訳（メタデータ） (2024-02-17T14:44:10Z)
A Non-Uniform Low-Light Image Enhancement Method with Multi-Scale Attention Transformer and Luminance Consistency Loss [11.585269110131659]
低照度画像強調は、薄暗い環境で収集された画像の知覚を改善することを目的としている。既存の方法では、識別された輝度情報を適応的に抽出することができず、露光過多や露光過多を容易に引き起こすことができる。 MSATrというマルチスケールアテンション変換器を提案し,光バランスの局所的・グローバル的特徴を十分に抽出し,視覚的品質を向上させる。
論文参考訳（メタデータ） (2023-12-27T10:07:11Z)
Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文参考訳（メタデータ） (2023-03-23T05:17:05Z)
Semantic-aware Texture-Structure Feature Collaboration for Underwater Image Enhancement [58.075720488942125]
水中画像の強調は海洋工学や水生ロボット工学において重要な技術として注目されている。我々は,高レベルな意味認識事前学習モデルと協調して,効率的でコンパクトな拡張ネットワークを開発する。また,提案手法を水中の有意な物体検出タスクに適用し,高レベルの視覚タスクに適した意味認識能力を明らかにする。
論文参考訳（メタデータ） (2022-11-19T07:50:34Z)
Self-Aligned Concave Curve: Illumination Enhancement for Unsupervised Adaptation [36.050270650417325]
ハイレベルビジョンのための学習可能な照明強調モデルを提案する。実際のカメラ応答関数にインスパイアされた照明強調関数は凹凸曲線であると仮定する。我々のモデルアーキテクチャとトレーニングデザインは相互に恩恵を受け、強力な教師なし正規-低照度適応フレームワークを形成する。
論文参考訳（メタデータ） (2022-10-07T19:32:55Z)
Single Image Deraining via Scale-space Invariant Attention Neural Network [58.5284246878277]
我々は,カメラに対するレインステーキの外観の視覚的変化に対処するスケールの概念に取り組む。本稿では,画素領域よりもコンパクトでロバストな畳み込み特徴領域のマルチスケール相関を表現することを提案する。このようにして、機能マップの最も活発な存在を、有能な特徴として要約する。
論文参考訳（メタデータ） (2020-06-09T04:59:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。