Fugu-MT 論文翻訳(概要): Multi-Model Learning for Real-Time Automotive Semantic Foggy Scene Understanding via Domain Adaptation

論文の概要: Multi-Model Learning for Real-Time Automotive Semantic Foggy Scene Understanding via Domain Adaptation

arxiv url: http://arxiv.org/abs/2012.05320v1
Date: Wed, 9 Dec 2020 21:04:05 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-16 01:59:09.243496
Title: Multi-Model Learning for Real-Time Automotive Semantic Foggy Scene Understanding via Domain Adaptation
Title（参考訳）: ドメイン適応によるリアルタイム自動車意味空間理解のためのマルチモデル学習
Authors: Naif Alshammari, Samet Akcay, and Toby P. Breckon
Abstract要約: 本研究では,霧の多い気象条件にロバストな自動車意味理解手法を提案する。提案手法では,RGB色,深度,輝度の画像を密接な接続性を持つ異なるエンコーダに組み込む。我々のモデルは、モデル全体の複雑さのごく一部で、現代のアプローチに匹敵する性能を達成する。
参考スコア（独自算出の注目度）: 17.530091734327296
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Robust semantic scene segmentation for automotive applications is a challenging problem in two key aspects: (1) labelling every individual scene pixel and (2) performing this task under unstable weather and illumination changes (e.g., foggy weather), which results in poor outdoor scene visibility. Such visibility limitations lead to non-optimal performance of generalised deep convolutional neural network-based semantic scene segmentation. In this paper, we propose an efficient end-to-end automotive semantic scene understanding approach that is robust to foggy weather conditions. As an end-to-end pipeline, our proposed approach provides: (1) the transformation of imagery from foggy to clear weather conditions using a domain transfer approach (correcting for poor visibility) and (2) semantically segmenting the scene using a competitive encoder-decoder architecture with low computational complexity (enabling real-time performance). Our approach incorporates RGB colour, depth and luminance images via distinct encoders with dense connectivity and features fusion to effectively exploit information from different inputs, which contributes to an optimal feature representation within the overall model. Using this architectural formulation with dense skip connections, our model achieves comparable performance to contemporary approaches at a fraction of the overall model complexity.
Abstract（参考訳）: 自動車用途におけるロバストなセマンティックシーンセグメンテーションは,(1)各シーンピクセルのラベル付け,(2)不安定な天候下でのタスクの実行,および(霧の天候など)照明変化による屋外シーンの視認性の低下という2つの重要な側面において難しい問題である。このような可視性制限は、一般化されたディープ畳み込みニューラルネットワークに基づくセマンティックシーンセグメンテーションの非最適性能をもたらす。本稿では,霧の気象条件に頑健な効率的な自動車意味場面理解手法を提案する。エンドツーエンドのパイプラインとして,(1)ドメイン転送方式(可視性を損なう)による霧から晴れた気象条件への画像変換,(2)計算量(リアルタイム性能)の少ない競合エンコーダ・デコーダアーキテクチャを用いてシーンを意味的にセグメンテーションする手法を提案する。本手法では,rgb色,奥行き,輝度画像を濃密に結合したエンコーダを介して取り込み,異なる入力からの情報を効果的に活用する機能融合を行い,モデル全体の最適な特徴表現に寄与する。密接なスキップ接続を持つこのアーキテクチャの定式化を用いることで,モデル全体の複雑さのごく一部で,現代のアプローチに匹敵するパフォーマンスを実現します。

関連論文リスト

TASeg: Text-aware RGB-T Semantic Segmentation based on Fine-tuning Vision Foundation Models [26.983562312613877]
本稿では,ローランド適応(LoRA)ファインチューニング技術を用いたテキスト認識RGB-Tセグメンテーションフレームワークを提案する。具体的には,画像エンコーダにおける動的特徴融合モジュール (DFFM) を提案する。
論文参考訳（メタデータ） (2025-06-27T07:34:28Z)
FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。 PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。 FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文参考訳（メタデータ） (2025-03-25T15:04:53Z)
Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。 Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。 nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-12-28T14:23:58Z)
EraW-Net: Enhance-Refine-Align W-Net for Scene-Associated Driver Attention Estimation [17.0226030258296]
2つの視野にわたる運転シーンにドライバーの注意を関連付けることは、クロスドメインな認識の問題である。従来の手法は、通常、単一の視点に焦点を当てたり、推定された視線を通してシーンに注意を向ける。エンド・ツー・エンドのシーン関連運転注意度推定手法であるEraWNetを提案する。
論文参考訳（メタデータ） (2024-08-16T07:12:47Z)
MaeFuse: Transferring Omni Features with Pretrained Masked Autoencoders for Infrared and Visible Image Fusion via Guided Training [57.18758272617101]
MaeFuseは、赤外線および可視画像融合(IVIF)用に設計された新しいオートエンコーダモデルである提案モデルでは,MAE(Masked Autoencoders)の事前訓練エンコーダを用いて,低レベル再構成と高レベル視覚タスクのためのオムニ特徴抽出機能を備えている。 MaeFuseは、融合技術という領域で新しい視点を導入するだけでなく、様々な公開データセットで顕著なパフォーマンスで際立っている。
論文参考訳（メタデータ） (2024-04-17T02:47:39Z)
Homography Guided Temporal Fusion for Road Line and Marking Segmentation [73.47092021519245]
道路線やマーキングは、移動車両、影、グレアの存在下でしばしば閉鎖される。本稿では,映像フレームを補足的に利用するHomography Guided Fusion (HomoFusion) モジュールを提案する。カメラ固有のデータと地上平面の仮定をクロスフレーム対応に利用することにより,高速・高精度性能が向上した軽量ネットワークの実現が期待できることを示す。
論文参考訳（メタデータ） (2024-04-11T10:26:40Z)
DNS SLAM: Dense Neural Semantic-Informed SLAM [92.39687553022605]
DNS SLAMは、ハイブリッド表現を備えた新しいRGB-DセマンティックSLAMアプローチである。本手法は画像に基づく特徴抽出と多視点幾何制約を統合し,外観の細部を改良する。実験により, 合成データと実世界のデータ追跡の両面において, 最先端の性能が得られた。
論文参考訳（メタデータ） (2023-11-30T21:34:44Z)
Corner-to-Center Long-range Context Model for Efficient Learned Image Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文参考訳（メタデータ） (2023-11-29T21:40:28Z)
Combined CNN Transformer Encoder for Enhanced Fine-grained Human Action Recognition [11.116921653535226]
本稿では,CNNビジョンバックボーンとTransformerを組み合わせた2つのフレームワークについて検討する。実験の結果,トランスフォーマーエンコーダフレームワークはいずれも,潜時的意味論と相互モダリティ関連を効果的に学習していることがわかった。我々は,両アーキテクチャのFinGymベンチマークデータセットに対して,最先端性能を新たに実現した。
論文参考訳（メタデータ） (2022-08-03T08:01:55Z)
Dynamic Spatial Sparsification for Efficient Vision Transformers and Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文参考訳（メタデータ） (2022-07-04T17:00:51Z)
Decoupled Spatial-Temporal Transformer for Video Inpainting [77.8621673355983]
ビデオは、特定の穴をリアルな外観で埋めることを目指していますが、豊かなディープラーニングアプローチでも依然として難しい作業です。最近の研究は、将来有望なTransformerアーキテクチャをディープビデオのインペイントに導入し、より良いパフォーマンスを実現している。ビデオインペインティングを優れた効率で改善するため、DSTT(Decoupled Spatial-Temporal Transformer)を提案します。
論文参考訳（メタデータ） (2021-04-14T05:47:46Z)
Competitive Simplicity for Multi-Task Learning for Real-Time Foggy Scene Understanding via Domain Adaptation [17.530091734327296]
霧の多い気象条件下で,リアルタイムのセマンティックシーン理解と単眼深度推定が可能なマルチタスク学習手法を提案する。我々のモデルはRGB色、深度、輝度の画像を密接な接続性を持つ異なるエンコーダで表現する。
論文参考訳（メタデータ） (2020-12-09T20:38:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。