論文の概要: A biologically inspired separable learning vision model for real-time traffic object perception in Dark
- arxiv url: http://arxiv.org/abs/2509.05012v1
- Date: Fri, 05 Sep 2025 11:22:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.575165
- Title: A biologically inspired separable learning vision model for real-time traffic object perception in Dark
- Title(参考訳): 暗黒におけるリアルタイム交通物体知覚のための生物学的にインスパイアされた分離型学習視覚モデル
- Authors: Hulin Li, Qiliang Ren, Jun Li, Hanbing Wei, Zheng Liu, Linfang Fan,
- Abstract要約: 我々は,現実世界の低照度設定に適した物理的に接地された照明劣化手法を導入し,低照度交通シーンにおいてこれまでで最大の濃密な注釈付きデータセットであるダーク・トラフィックを構築した。
また,光の弱い環境下での知覚を高めるために,生物学的にインスパイアされたフレームワークである,分離型学習視覚モデル(SLVM)を提案する。
SLVMは、照明に敏感な特徴抽出のための光適応型瞳孔機構、効率的な表現のための特徴レベル分離学習戦略、高精度な多機能アライメントのための空間的ミスアライメント対応融合モジュールの4つの重要なコンポーネントを統合している。
- 参考スコア(独自算出の注目度): 8.798037910488812
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Fast and accurate object perception in low-light traffic scenes has attracted increasing attention. However, due to severe illumination degradation and the lack of reliable visual cues, existing perception models and methods struggle to quickly adapt to and accurately predict in low-light environments. Moreover, there is the absence of available large-scale benchmark specifically focused on low-light traffic scenes. To bridge this gap, we introduce a physically grounded illumination degradation method tailored to real-world low-light settings and construct Dark-traffic, the largest densely annotated dataset to date for low-light traffic scenes, supporting object detection, instance segmentation, and optical flow estimation. We further propose the Separable Learning Vision Model (SLVM), a biologically inspired framework designed to enhance perception under adverse lighting. SLVM integrates four key components: a light-adaptive pupillary mechanism for illumination-sensitive feature extraction, a feature-level separable learning strategy for efficient representation, task-specific decoupled branches for multi-task separable learning, and a spatial misalignment-aware fusion module for precise multi-feature alignment. Extensive experiments demonstrate that SLVM achieves state-of-the-art performance with reduced computational overhead. Notably, it outperforms RT-DETR by 11.2 percentage points in detection, YOLOv12 by 6.1 percentage points in instance segmentation, and reduces endpoint error (EPE) of baseline by 12.37% on Dark-traffic. On the LIS benchmark, the end-to-end trained SLVM surpasses Swin Transformer+EnlightenGAN and ConvNeXt-T+EnlightenGAN by an average of 11 percentage points across key metrics, and exceeds Mask RCNN (with light enhancement) by 3.1 percentage points. The Dark-traffic dataset and complete code is released at https://github.com/alanli1997/slvm.
- Abstract(参考訳): 低照度交通シーンにおける高速で正確な物体認識が注目を集めている。
しかし、照明の劣化と信頼性の低い視覚的手がかりの欠如により、既存の知覚モデルや手法は、低照度環境において迅速に適応し、正確に予測するのに苦労している。
さらに、低照度トラフィックシーンに特化して利用可能な大規模ベンチマークが存在しない。
このギャップを埋めるために、現実世界の低照度設定に適した物理的に接地された照明劣化手法を導入し、低照度トラフィックシーンにおいて、これまでで最大の高密度アノテートデータセットであるダークトラフィックを構築し、オブジェクト検出、インスタンスセグメンテーション、光フロー推定をサポートする。
また,光の弱い環境下での知覚を高めるために,生物学的にインスパイアされたフレームワークである,分離型学習ビジョンモデル(SLVM)を提案する。
SLVMは、照明に敏感な特徴抽出のための光適応型瞳孔機構、効率的な表現のための特徴レベル分離学習戦略、マルチタスク分離学習のためのタスク固有分離分岐、正確なマルチ機能アライメントのための空間的ミスアライメント対応融合モジュールの4つの重要なコンポーネントを統合している。
SLVMは計算オーバーヘッドを減らして最先端の性能を実現する。
特にRT-DETRが11.2ポイント、YOLOv12が6.1ポイント、ベースラインのエンドポイントエラー(EPE)が12.37%減少している。
LISベンチマークでは、エンドツーエンドのトレーニングされたSLVMがSwin Transformer+EnlightenGANとConvNeXt-T+EnlightenGANを平均11ポイント、Mask RCNNを3.1ポイント上回る。
Dark-trafficデータセットと完全なコードはhttps://github.com/alanli1997/slvm.comで公開されている。
関連論文リスト
- SAIGFormer: A Spatially-Adaptive Illumination-Guided Network for Low-Light Image Enhancement [58.79901582809091]
近年, トランスフォーマーを用いた低照度化手法は, 世界照明の回復に有望な進展をもたらした。
近年, トランスフォーマーを用いた低照度化手法は, 世界照明の回復に有望な進展をもたらした。
正確な照明復元を可能にする空間適応照明誘導変圧器フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-21T11:38:56Z) - BRIGHT-VO: Brightness-Guided Hybrid Transformer for Visual Odometry with Multi-modality Refinement Module [11.898515581215708]
視覚計測(VO)は、自律運転、ロボットナビゲーション、その他の関連するタスクにおいて重要な役割を果たす。
本稿では,トランスフォーマーアーキテクチャに基づく新しいVOモデルであるBrightVOを紹介し,フロントエンドの視覚的特徴抽出を行う。
ポーズグラフ最適化を用いて、このモジュールは、エラーを減らし、精度とロバスト性の両方を改善するために、ポーズ推定を反復的に洗練する。
論文 参考訳(メタデータ) (2025-01-15T08:50:52Z) - Point Cloud Understanding via Attention-Driven Contrastive Learning [64.65145700121442]
トランスフォーマーベースのモデルは、自己認識機構を活用することにより、先進的なポイントクラウド理解を持つ。
PointACLは、これらの制限に対処するために設計された、注意駆動のコントラスト学習フレームワークである。
本手法では, 注意駆動型動的マスキング手法を用いて, モデルが非集中領域に集中するように誘導する。
論文 参考訳(メタデータ) (2024-11-22T05:41:00Z) - A Lightweight Low-Light Image Enhancement Network via Channel Prior and Gamma Correction [0.0]
LLIE(ローライト・イメージ・エンハンスメント)とは、低照度シーンの処理に適した画像エンハンスメント技術である。
我々は,暗/明のチャネル先行と深層学習によるガンマ補正を組み合わせた,革新的なLLIEネットワークであるCPGA-Netを紹介する。
論文 参考訳(メタデータ) (2024-02-28T08:18:20Z) - Low-Light Hyperspectral Image Enhancement [90.84144276935464]
本研究は,暗黒領域に隠された空間スペクトル情報を明らかにすることを目的とした,低照度HSI強調タスクに焦点を当てた。
ラプラシアのピラミッドの分解と再構成に基づいて, エンド・ツー・エンドのデータ駆動型低照度HSIエンハンスメント(HSIE)手法を開発した。
定量的評価と視覚効果の両面でのHSIEの有効性と効果を実証した。
論文 参考訳(メタデータ) (2022-08-05T08:45:52Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - LightDefectNet: A Highly Compact Deep Anti-Aliased Attention Condenser
Neural Network Architecture for Light Guide Plate Surface Defect Detection [71.40595908386477]
ライトガイドプレートの製造において重要なステップは、傷、明るい暗黒点、不純物などの欠陥の検査である。
ディープラーニング駆動型コンピュータビジョンの進歩は、ライトガイドプレートの自動視覚品質検査の探索につながった。
LightDetectNetは、光ガイド板表面欠陥検出に特化して設計された、高度にコンパクトなディープアンチエイリアス化されたアテンションコンデンサニューラルネットワークアーキテクチャである。
論文 参考訳(メタデータ) (2022-04-25T16:33:37Z) - Object-based Illumination Estimation with Rendering-aware Neural
Networks [56.01734918693844]
個々の物体とその局所画像領域のRGBD外観から高速環境光推定手法を提案する。
推定照明により、仮想オブジェクトは実際のシーンと一貫性のあるシェーディングでARシナリオでレンダリングできる。
論文 参考訳(メタデータ) (2020-08-06T08:23:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。