論文の概要: Multi-Model Learning for Real-Time Automotive Semantic Foggy Scene
Understanding via Domain Adaptation
- arxiv url: http://arxiv.org/abs/2012.05320v1
- Date: Wed, 9 Dec 2020 21:04:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 01:59:09.243496
- Title: Multi-Model Learning for Real-Time Automotive Semantic Foggy Scene
Understanding via Domain Adaptation
- Title(参考訳): ドメイン適応によるリアルタイム自動車意味空間理解のためのマルチモデル学習
- Authors: Naif Alshammari, Samet Akcay, and Toby P. Breckon
- Abstract要約: 本研究では,霧の多い気象条件にロバストな自動車意味理解手法を提案する。
提案手法では,RGB色,深度,輝度の画像を密接な接続性を持つ異なるエンコーダに組み込む。
我々のモデルは、モデル全体の複雑さのごく一部で、現代のアプローチに匹敵する性能を達成する。
- 参考スコア(独自算出の注目度): 17.530091734327296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust semantic scene segmentation for automotive applications is a
challenging problem in two key aspects: (1) labelling every individual scene
pixel and (2) performing this task under unstable weather and illumination
changes (e.g., foggy weather), which results in poor outdoor scene visibility.
Such visibility limitations lead to non-optimal performance of generalised deep
convolutional neural network-based semantic scene segmentation. In this paper,
we propose an efficient end-to-end automotive semantic scene understanding
approach that is robust to foggy weather conditions. As an end-to-end pipeline,
our proposed approach provides: (1) the transformation of imagery from foggy to
clear weather conditions using a domain transfer approach (correcting for poor
visibility) and (2) semantically segmenting the scene using a competitive
encoder-decoder architecture with low computational complexity (enabling
real-time performance). Our approach incorporates RGB colour, depth and
luminance images via distinct encoders with dense connectivity and features
fusion to effectively exploit information from different inputs, which
contributes to an optimal feature representation within the overall model.
Using this architectural formulation with dense skip connections, our model
achieves comparable performance to contemporary approaches at a fraction of the
overall model complexity.
- Abstract(参考訳): 自動車用途におけるロバストなセマンティックシーンセグメンテーションは,(1)各シーンピクセルのラベル付け,(2)不安定な天候下でのタスクの実行,および(霧の天候など)照明変化による屋外シーンの視認性の低下という2つの重要な側面において難しい問題である。
このような可視性制限は、一般化されたディープ畳み込みニューラルネットワークに基づくセマンティックシーンセグメンテーションの非最適性能をもたらす。
本稿では,霧の気象条件に頑健な効率的な自動車意味場面理解手法を提案する。
エンドツーエンドのパイプラインとして,(1)ドメイン転送方式(可視性を損なう)による霧から晴れた気象条件への画像変換,(2)計算量(リアルタイム性能)の少ない競合エンコーダ・デコーダアーキテクチャを用いてシーンを意味的にセグメンテーションする手法を提案する。
本手法では,rgb色,奥行き,輝度画像を濃密に結合したエンコーダを介して取り込み,異なる入力からの情報を効果的に活用する機能融合を行い,モデル全体の最適な特徴表現に寄与する。
密接なスキップ接続を持つこのアーキテクチャの定式化を用いることで,モデル全体の複雑さのごく一部で,現代のアプローチに匹敵するパフォーマンスを実現します。
関連論文リスト
- EraW-Net: Enhance-Refine-Align W-Net for Scene-Associated Driver Attention Estimation [17.0226030258296]
2つの視野にわたる運転シーンにドライバーの注意を関連付けることは、クロスドメインな認識の問題である。
従来の手法は、通常、単一の視点に焦点を当てたり、推定された視線を通してシーンに注意を向ける。
エンド・ツー・エンドのシーン関連運転注意度推定手法であるEraWNetを提案する。
論文 参考訳(メタデータ) (2024-08-16T07:12:47Z) - MaeFuse: Transferring Omni Features with Pretrained Masked Autoencoders for Infrared and Visible Image Fusion via Guided Training [57.18758272617101]
MaeFuseは、赤外線および可視画像融合(IVIF)用に設計された新しいオートエンコーダモデルである
提案モデルでは,MAE(Masked Autoencoders)の事前訓練エンコーダを用いて,低レベル再構成と高レベル視覚タスクのためのオムニ特徴抽出機能を備えている。
MaeFuseは、融合技術という領域で新しい視点を導入するだけでなく、様々な公開データセットで顕著なパフォーマンスで際立っている。
論文 参考訳(メタデータ) (2024-04-17T02:47:39Z) - Homography Guided Temporal Fusion for Road Line and Marking Segmentation [73.47092021519245]
道路線やマーキングは、移動車両、影、グレアの存在下でしばしば閉鎖される。
本稿では,映像フレームを補足的に利用するHomography Guided Fusion (HomoFusion) モジュールを提案する。
カメラ固有のデータと地上平面の仮定をクロスフレーム対応に利用することにより,高速・高精度性能が向上した軽量ネットワークの実現が期待できることを示す。
論文 参考訳(メタデータ) (2024-04-11T10:26:40Z) - DNS SLAM: Dense Neural Semantic-Informed SLAM [92.39687553022605]
DNS SLAMは、ハイブリッド表現を備えた新しいRGB-DセマンティックSLAMアプローチである。
本手法は画像に基づく特徴抽出と多視点幾何制約を統合し,外観の細部を改良する。
実験により, 合成データと実世界のデータ追跡の両面において, 最先端の性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T21:34:44Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Combined CNN Transformer Encoder for Enhanced Fine-grained Human Action
Recognition [11.116921653535226]
本稿では,CNNビジョンバックボーンとTransformerを組み合わせた2つのフレームワークについて検討する。
実験の結果,トランスフォーマーエンコーダフレームワークはいずれも,潜時的意味論と相互モダリティ関連を効果的に学習していることがわかった。
我々は,両アーキテクチャのFinGymベンチマークデータセットに対して,最先端性能を新たに実現した。
論文 参考訳(メタデータ) (2022-08-03T08:01:55Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z) - Decoupled Spatial-Temporal Transformer for Video Inpainting [77.8621673355983]
ビデオは、特定の穴をリアルな外観で埋めることを目指していますが、豊かなディープラーニングアプローチでも依然として難しい作業です。
最近の研究は、将来有望なTransformerアーキテクチャをディープビデオのインペイントに導入し、より良いパフォーマンスを実現している。
ビデオインペインティングを優れた効率で改善するため、DSTT(Decoupled Spatial-Temporal Transformer)を提案します。
論文 参考訳(メタデータ) (2021-04-14T05:47:46Z) - Competitive Simplicity for Multi-Task Learning for Real-Time Foggy Scene
Understanding via Domain Adaptation [17.530091734327296]
霧の多い気象条件下で,リアルタイムのセマンティックシーン理解と単眼深度推定が可能なマルチタスク学習手法を提案する。
我々のモデルはRGB色、深度、輝度の画像を密接な接続性を持つ異なるエンコーダで表現する。
論文 参考訳(メタデータ) (2020-12-09T20:38:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。