論文の概要: Multi-Model Learning for Real-Time Automotive Semantic Foggy Scene
Understanding via Domain Adaptation
- arxiv url: http://arxiv.org/abs/2012.05320v1
- Date: Wed, 9 Dec 2020 21:04:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 01:59:09.243496
- Title: Multi-Model Learning for Real-Time Automotive Semantic Foggy Scene
Understanding via Domain Adaptation
- Title(参考訳): ドメイン適応によるリアルタイム自動車意味空間理解のためのマルチモデル学習
- Authors: Naif Alshammari, Samet Akcay, and Toby P. Breckon
- Abstract要約: 本研究では,霧の多い気象条件にロバストな自動車意味理解手法を提案する。
提案手法では,RGB色,深度,輝度の画像を密接な接続性を持つ異なるエンコーダに組み込む。
我々のモデルは、モデル全体の複雑さのごく一部で、現代のアプローチに匹敵する性能を達成する。
- 参考スコア(独自算出の注目度): 17.530091734327296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust semantic scene segmentation for automotive applications is a
challenging problem in two key aspects: (1) labelling every individual scene
pixel and (2) performing this task under unstable weather and illumination
changes (e.g., foggy weather), which results in poor outdoor scene visibility.
Such visibility limitations lead to non-optimal performance of generalised deep
convolutional neural network-based semantic scene segmentation. In this paper,
we propose an efficient end-to-end automotive semantic scene understanding
approach that is robust to foggy weather conditions. As an end-to-end pipeline,
our proposed approach provides: (1) the transformation of imagery from foggy to
clear weather conditions using a domain transfer approach (correcting for poor
visibility) and (2) semantically segmenting the scene using a competitive
encoder-decoder architecture with low computational complexity (enabling
real-time performance). Our approach incorporates RGB colour, depth and
luminance images via distinct encoders with dense connectivity and features
fusion to effectively exploit information from different inputs, which
contributes to an optimal feature representation within the overall model.
Using this architectural formulation with dense skip connections, our model
achieves comparable performance to contemporary approaches at a fraction of the
overall model complexity.
- Abstract(参考訳): 自動車用途におけるロバストなセマンティックシーンセグメンテーションは,(1)各シーンピクセルのラベル付け,(2)不安定な天候下でのタスクの実行,および(霧の天候など)照明変化による屋外シーンの視認性の低下という2つの重要な側面において難しい問題である。
このような可視性制限は、一般化されたディープ畳み込みニューラルネットワークに基づくセマンティックシーンセグメンテーションの非最適性能をもたらす。
本稿では,霧の気象条件に頑健な効率的な自動車意味場面理解手法を提案する。
エンドツーエンドのパイプラインとして,(1)ドメイン転送方式(可視性を損なう)による霧から晴れた気象条件への画像変換,(2)計算量(リアルタイム性能)の少ない競合エンコーダ・デコーダアーキテクチャを用いてシーンを意味的にセグメンテーションする手法を提案する。
本手法では,rgb色,奥行き,輝度画像を濃密に結合したエンコーダを介して取り込み,異なる入力からの情報を効果的に活用する機能融合を行い,モデル全体の最適な特徴表現に寄与する。
密接なスキップ接続を持つこのアーキテクチャの定式化を用いることで,モデル全体の複雑さのごく一部で,現代のアプローチに匹敵するパフォーマンスを実現します。
関連論文リスト
- DNS SLAM: Dense Neural Semantic-Informed SLAM [92.39687553022605]
DNS SLAMは、ハイブリッド表現を備えた新しいRGB-DセマンティックSLAMアプローチである。
本手法は画像に基づく特徴抽出と多視点幾何制約を統合し,外観の細部を改良する。
実験により, 合成データと実世界のデータ追跡の両面において, 最先端の性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T21:34:44Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - Combined CNN Transformer Encoder for Enhanced Fine-grained Human Action
Recognition [11.116921653535226]
本稿では,CNNビジョンバックボーンとTransformerを組み合わせた2つのフレームワークについて検討する。
実験の結果,トランスフォーマーエンコーダフレームワークはいずれも,潜時的意味論と相互モダリティ関連を効果的に学習していることがわかった。
我々は,両アーキテクチャのFinGymベンチマークデータセットに対して,最先端性能を新たに実現した。
論文 参考訳(メタデータ) (2022-08-03T08:01:55Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - Unpaired Quad-Path Cycle Consistent Adversarial Networks for Single
Image Defogging [16.59494337699748]
本研究では, クアッドパスサイクル一貫した対向ネットワーク (QPC-Net) という, 新たな対向ネットワークを構築した。
QPC-NetはFog2FogfreeブロックとFogfree2Fogブロックで構成される。
QPC-Netは、定量的精度と主観的視覚的品質の観点から、最先端のデファジグ手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-19T09:00:37Z) - Decoupled Spatial-Temporal Transformer for Video Inpainting [77.8621673355983]
ビデオは、特定の穴をリアルな外観で埋めることを目指していますが、豊かなディープラーニングアプローチでも依然として難しい作業です。
最近の研究は、将来有望なTransformerアーキテクチャをディープビデオのインペイントに導入し、より良いパフォーマンスを実現している。
ビデオインペインティングを優れた効率で改善するため、DSTT(Decoupled Spatial-Temporal Transformer)を提案します。
論文 参考訳(メタデータ) (2021-04-14T05:47:46Z) - Competitive Simplicity for Multi-Task Learning for Real-Time Foggy Scene
Understanding via Domain Adaptation [17.530091734327296]
霧の多い気象条件下で,リアルタイムのセマンティックシーン理解と単眼深度推定が可能なマルチタスク学習手法を提案する。
我々のモデルはRGB色、深度、輝度の画像を密接な接続性を持つ異なるエンコーダで表現する。
論文 参考訳(メタデータ) (2020-12-09T20:38:34Z) - Illumination Normalization by Partially Impossible Encoder-Decoder Cost
Function [13.618797548020462]
本稿では,エンコーダデコーダネットワークのコスト関数定式化のための新しい手法を提案する。
本手法は,異なる照明条件と環境条件下での同一シーンの可利用性を利用した。
適用性は3つの公開データセットで評価される。
論文 参考訳(メタデータ) (2020-11-06T15:25:26Z) - Semantic Flow for Fast and Accurate Scene Parsing [28.444273169423074]
フローアライメントモジュール(FAM)は、隣接するレベルの特徴マップ間のセマンティックフローを学習する。
Cityscapes、PASCAL Context、ADE20K、CamVidなど、いくつかの挑戦的なデータセットで実験が行われている。
私たちのネットワークは、26FPSのフレームレートで80.4%のmIoUをCityscapesで達成した初めてのネットワークです。
論文 参考訳(メタデータ) (2020-02-24T08:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。