論文の概要: Multi-Task-oriented Nighttime Haze Imaging Enhancer for Vision-driven Measurement Systems
- arxiv url: http://arxiv.org/abs/2502.07351v1
- Date: Tue, 11 Feb 2025 08:22:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 18:22:48.064106
- Title: Multi-Task-oriented Nighttime Haze Imaging Enhancer for Vision-driven Measurement Systems
- Title(参考訳): 視覚駆動計測システムのためのマルチタスク指向夜間ハゼイメージングエンハンサ
- Authors: Ai Chen, Yuxu Lu, Dong Yang, Junlin Zhou, Yan Fu, Duanbing Chen,
- Abstract要約: ヘイズなどの逆画像条件は、画質を著しく劣化させる。
マルチタスク指向型夜間ヘイズイメージングエンハンサー(MToIE)を提案する。
MToIEは、昼間の脱毛、低照度強化、夜間の脱毛という3つのタスクを取り入れている。
- 参考スコア(独自算出の注目度): 4.742689734374541
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Salient object detection (SOD) plays a critical role in vision-driven measurement systems (VMS), facilitating the detection and segmentation of key visual elements in an image. However, adverse imaging conditions such as haze during the day, low light, and haze at night severely degrade image quality, and complicating the SOD process. To address these challenges, we propose a multi-task-oriented nighttime haze imaging enhancer (MToIE), which integrates three tasks: daytime dehazing, low-light enhancement, and nighttime dehazing. The MToIE incorporates two key innovative components: First, the network employs a task-oriented node learning mechanism to handle three specific degradation types: day-time haze, low light, and night-time haze conditions, with an embedded self-attention module enhancing its performance in nighttime imaging. In addition, multi-receptive field enhancement module that efficiently extracts multi-scale features through three parallel depthwise separable convolution branches with different dilation rates, capturing comprehensive spatial information with minimal computational overhead. To ensure optimal image reconstruction quality and visual characteristics, we suggest a hybrid loss function. Extensive experiments on different types of weather/imaging conditions illustrate that MToIE surpasses existing methods, significantly enhancing the accuracy and reliability of vision systems across diverse imaging scenarios. The code is available at https://github.com/Ai-Chen-Lab/MToIE.
- Abstract(参考訳): 視覚駆動計測システム(VMS)では,画像中の重要な視覚要素の検出とセグメンテーションを容易にするために,SODが重要な役割を担っている。
しかし, 夜間のヘイズ, 低照度, 夜間のヘイズなどの悪条件は, 画質を著しく低下させ, SODプロセスの複雑化を招いた。
これらの課題に対処するため,日中消光,低照度消光,夜間消光という3つのタスクを統合したマルチタスク指向の夜間消光強調器 (MToIE) を提案する。
まず、ネットワークはタスク指向のノード学習機構を使用して、昼時間ヘイズ、低照度、夜間のヘイズ条件という3つの特定の劣化タイプを処理する。
さらに,3つの並列深度分離可能な畳み込み枝を通じて多次元特徴を効率よく抽出し,計算オーバーヘッドを最小限に抑えた包括的空間情報を収集する多受容場拡張モジュールを試作した。
最適な画像再構成品質と視覚特性を確保するために,ハイブリッド損失関数を提案する。
異なる種類の気象・画像条件に関する大規模な実験は、MToIEが既存の手法を超越し、様々な画像シナリオにおける視覚システムの精度と信頼性を著しく向上していることを示している。
コードはhttps://github.com/Ai-Chen-Lab/MToIEで入手できる。
関連論文リスト
- FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - DCEvo: Discriminative Cross-Dimensional Evolutionary Learning for Infrared and Visible Image Fusion [58.36400052566673]
赤外線および可視画像融合は、異なるスペクトルバンドからの情報を統合して画質を向上させる。
既存のアプローチでは、画像融合とそれに続くハイレベルなタスクを別プロセスとして扱う。
本稿では、視覚的品質と知覚精度を同時に向上させるDCEvoと呼ばれる識別的クロス次元進化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-22T07:01:58Z) - IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations [64.07859467542664]
画像から幾何学的および物質的情報をキャプチャすることは、コンピュータビジョンとグラフィックスの基本的な課題である。
従来の最適化に基づく手法では、密集した多視点入力から幾何学、材料特性、環境照明を再構築するために数時間の計算時間を必要とすることが多い。
IDArbは、様々な照明条件下で、任意の画像に対して本質的な分解を行うために設計された拡散モデルである。
論文 参考訳(メタデータ) (2024-12-16T18:52:56Z) - Exploring Reliable Matching with Phase Enhancement for Night-time Semantic Segmentation [58.180226179087086]
夜間セマンティックセマンティックセグメンテーションに適した新しいエンドツーエンド最適化手法であるNightFormerを提案する。
具体的には,画素レベルのテクスチャ・エンハンスメント・モジュールを設計し,フェーズ・エンハンスメントとアンプリメント・アテンションとともに階層的にテクスチャ・アウェア機能を取得する。
提案手法は、最先端の夜間セマンティックセグメンテーション手法に対して好意的に機能する。
論文 参考訳(メタデータ) (2024-08-25T13:59:31Z) - MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection [28.319440934322728]
MV2DFusionは、高度なクエリベースの融合機構を通じて両方の世界の強みを統合するマルチモーダル検出フレームワークである。
私たちのフレームワークの柔軟性は、任意のイメージとポイントクラウドベースの検出器との統合を可能にし、その適応性と将来の進歩の可能性を示しています。
論文 参考訳(メタデータ) (2024-08-12T06:46:05Z) - MonoMM: A Multi-scale Mamba-Enhanced Network for Real-time Monocular 3D Object Detection [9.780498146964097]
リアルタイムモノクロ3Dオブジェクト検出のための革新的なネットワークアーキテクチャであるMonoMMを提案する。
MonoMM は Focused Multi-Scale Fusion (FMF) と Depth-Aware Feature Enhancement Mamba (DMB) モジュールで構成されている。
提案手法は,従来の単分子法よりも優れ,リアルタイム検出を実現する。
論文 参考訳(メタデータ) (2024-08-01T10:16:58Z) - Light the Night: A Multi-Condition Diffusion Framework for Unpaired Low-Light Enhancement in Autonomous Driving [45.97279394690308]
LightDiffは、自動運転アプリケーションの低照度画像品質を高めるために設計されたフレームワークである。
深度マップ、RGB画像、テキストキャプションなど、様々なモードから入力重みを適応的に制御する新しいマルチコンディションアダプタが組み込まれている。
夜間の条件下での最先端の3D検出器の性能を著しく向上し、高い視覚的品質のスコアを達成できる。
論文 参考訳(メタデータ) (2024-04-07T04:10:06Z) - A Non-Uniform Low-Light Image Enhancement Method with Multi-Scale
Attention Transformer and Luminance Consistency Loss [11.585269110131659]
低照度画像強調は、薄暗い環境で収集された画像の知覚を改善することを目的としている。
既存の方法では、識別された輝度情報を適応的に抽出することができず、露光過多や露光過多を容易に引き起こすことができる。
MSATrというマルチスケールアテンション変換器を提案し,光バランスの局所的・グローバル的特徴を十分に抽出し,視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-12-27T10:07:11Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Hybrid-Supervised Dual-Search: Leveraging Automatic Learning for
Loss-free Multi-Exposure Image Fusion [60.221404321514086]
マルチ露光画像融合(MEF)は、様々な露光レベルを表すデジタルイメージングの限界に対処するための重要な解決策である。
本稿では、ネットワーク構造と損失関数の両方を自動設計するための二段階最適化探索方式であるHSDS-MEFと呼ばれるMEFのためのハイブリッドスーパービジョンデュアルサーチ手法を提案する。
論文 参考訳(メタデータ) (2023-09-03T08:07:26Z) - LiDAR-BEVMTN: Real-Time LiDAR Bird's-Eye View Multi-Task Perception Network for Autonomous Driving [12.713417063678335]
本稿では,LiDARに基づくオブジェクト検出,意味論,動作セグメンテーションのためのリアルタイムマルチタスク畳み込みニューラルネットワークを提案する。
オブジェクト検出を選択的に改善するためのセマンティック・ウェイト・アンド・ガイダンス(SWAG)モジュールを提案する。
我々は,2つのタスク,セマンティックとモーションセグメンテーション,および3Dオブジェクト検出のための最先端性能に近い2つのタスクに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-07-17T21:22:17Z) - MonoTDP: Twin Depth Perception for Monocular 3D Object Detection in
Adverse Scenes [49.21187418886508]
本論文は,モノTDP(MonoTDP)と呼ばれる悪シーンにおける2つの深度を知覚するモノクル3次元検出モデルを提案する。
まず、制御不能な気象条件を扱うモデルを支援するための適応学習戦略を導入し、様々な劣化要因による劣化を著しく抑制する。
そこで本研究では, シーン深度と物体深度を同時に推定する新たな2つの深度認識モジュールを提案する。
論文 参考訳(メタデータ) (2023-05-18T13:42:02Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z) - Bridge the Vision Gap from Field to Command: A Deep Learning Network
Enhancing Illumination and Details [17.25188250076639]
我々は,明るさを調整し,細部を同時に強化する2ストリームフレームワークNEIDを提案する。
提案手法は,光強調 (LE), 細粒化 (DR), 特徴拡散 (FF) モジュールの3つの部分から構成される。
論文 参考訳(メタデータ) (2021-01-20T09:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。