論文の概要: Deformable Convolution Based Road Scene Semantic Segmentation of Fisheye Images in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2407.16647v2
- Date: Tue, 01 Oct 2024 09:22:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-02 16:32:34.232042
- Title: Deformable Convolution Based Road Scene Semantic Segmentation of Fisheye Images in Autonomous Driving
- Title(参考訳): 変形可能な畳み込みに基づく魚眼画像の自律走行における道路シーンセマンティックセマンティックセグメンテーション
- Authors: Anam Manzoor, Aryan Singh, Ganesh Sistu, Reenu Mohandas, Eoin Grua, Anthony Scanlan, Ciarán Eising,
- Abstract要約: 本研究では,近代的変形可能な畳み込みニューラルネットワーク(DCNN)のセマンティックセグメンテーションタスクへの応用について検討する。
実験では,WoodScapeの魚眼画像データセットを10種類の異なるクラスに分割し,複雑な空間関係を捉えるデフォルマブルネットワークの能力を評価する。
変形可能なCNNの統合によるmIoUスコアの大幅な改善は、魚眼画像に存在する幾何歪みを扱う上での有効性を示す。
- 参考スコア(独自算出の注目度): 4.720434481945155
- License:
- Abstract: This study investigates the effectiveness of modern Deformable Convolutional Neural Networks (DCNNs) for semantic segmentation tasks, particularly in autonomous driving scenarios with fisheye images. These images, providing a wide field of view, pose unique challenges for extracting spatial and geometric information due to dynamic changes in object attributes. Our experiments focus on segmenting the WoodScape fisheye image dataset into ten distinct classes, assessing the Deformable Networks' ability to capture intricate spatial relationships and improve segmentation accuracy. Additionally, we explore different loss functions to address class imbalance issues and compare the performance of conventional CNN architectures with Deformable Convolution-based CNNs, including Vanilla U-Net and Residual U-Net architectures. The significant improvement in mIoU score resulting from integrating Deformable CNNs demonstrates their effectiveness in handling the geometric distortions present in fisheye imagery, exceeding the performance of traditional CNN architectures. This underscores the significant role of Deformable convolution in enhancing semantic segmentation performance for fisheye imagery.
- Abstract(参考訳): 本研究では, 魚眼画像を用いた自律走行シナリオにおいて, セマンティックセグメンテーションタスクにおける, 現代の変形可能な畳み込みニューラルネットワーク(DCNN)の有効性について検討した。
これらの画像は広い視野を提供し、オブジェクト属性の動的変化による空間的および幾何学的情報の抽出にユニークな課題を提起する。
実験では,WoodScapeの魚眼画像データセットを10の異なるクラスに分割し,複雑な空間関係を捕捉し,セグメンテーション精度を向上させるデフォルマブルネットワークの能力を評価する。
さらに,従来のCNNアーキテクチャと,Vanilla U-NetやResidual U-Netを含むDeformable ConvolutionベースのCNNの性能を比較した。
変形可能なCNNの統合によるmIoUスコアの大幅な改善は、魚眼画像に現れる幾何学的歪みを扱う上で、従来のCNNアーキテクチャよりも優れていることを示す。
このことは、魚眼画像のセマンティックセグメンテーション性能を高める上で、変形可能な畳み込みが重要な役割を担っていることを示している。
関連論文リスト
- Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Convolution kernel adaptation to calibrated fisheye [45.90423821963144]
畳み込み核は畳み込みニューラルネットワーク(CNN)の基本構造成分である
本稿では,カメラのキャリブレーションを利用してコンボリューションカーネルを変形させ,歪みに適応させる手法を提案する。
小型のデータセットで簡単な微調整を施すことで,漁獲魚のネットワーク性能が向上することを示す。
論文 参考訳(メタデータ) (2024-02-02T14:44:50Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Impact of Scaled Image on Robustness of Deep Neural Networks [0.0]
生画像のスケーリングはアウト・オブ・ディストリビューションデータを生成するため、ネットワークを騙すための敵攻撃の可能性がある。
本研究では,ImageNet Challengeデータセットのサブセットを複数でスケーリングすることで,Scaling-DistortionデータセットのImageNet-CSを提案する。
論文 参考訳(メタデータ) (2022-09-02T08:06:58Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Cloud based Scalable Object Recognition from Video Streams using
Orientation Fusion and Convolutional Neural Networks [11.44782606621054]
畳み込みニューラルネットワーク(CNN)は、インテリジェントな視覚オブジェクト認識を行うために広く利用されている。
CNNはいまだに深刻な精度低下、特に照明変動データセットに悩まされている。
視覚オブジェクト認識のための方向融合に基づく新しいCNN手法を提案する。
論文 参考訳(メタデータ) (2021-06-19T07:15:15Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Contextually Guided Convolutional Neural Networks for Learning Most
Transferable Representations [1.160208922584163]
新たなタスクに転送可能な汎用表現を開発するための効率的なアルゴリズムをトレーニングなしで提案する。
コンテキストガイド付きCNN(CG-CNN)は、データセット内のランダムな画像位置で選択された近隣画像パッチのグループに基づいて訓練される。
自然画像への適用では、CG-CNNの機能は、最初のCNNレイヤーの同等の転送可能な機能と同じ、高い場合でも、転送ユーティリティと分類精度を示しています。
論文 参考訳(メタデータ) (2021-03-02T08:41:12Z) - Adaptable Deformable Convolutions for Semantic Segmentation of Fisheye
Images in Autonomous Driving Systems [4.231909978425546]
標準画像に訓練されたCNNが魚眼画像に容易に適応できることを示した。
我々の適応プロトコルは主に、既存の層の上に変形可能な等価性を使用することで畳み込みのサポートを変更することに依存している。
論文 参考訳(メタデータ) (2021-02-19T22:47:44Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。