論文の概要: HSDA: High-frequency Shuffle Data Augmentation for Bird's-Eye-View Map Segmentation
- arxiv url: http://arxiv.org/abs/2412.06127v1
- Date: Mon, 09 Dec 2024 01:15:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:54:54.374337
- Title: HSDA: High-frequency Shuffle Data Augmentation for Bird's-Eye-View Map Segmentation
- Title(参考訳): HSDA:Bird's-Eye-View Map Segmentationのための高周波シャッフルデータ拡張
- Authors: Calvin Glisson, Qiuxiao Chen,
- Abstract要約: High- frequency Shuffle Data Augmentation (HSDA)は、高周波画像コンテンツを解釈するネットワークの能力を高める新しいデータ拡張戦略である。
HSDAは、カメラのみのシステムで61.3%の、最先端の平均的ユニオン(mIoU)を達成している。
- 参考スコア(独自算出の注目度): 0.9208007322096533
- License:
- Abstract: Autonomous driving has garnered significant attention in recent research, and Bird's-Eye-View (BEV) map segmentation plays a vital role in the field, providing the basis for safe and reliable operation. While data augmentation is a commonly used technique for improving BEV map segmentation networks, existing approaches predominantly focus on manipulating spatial domain representations. In this work, we investigate the potential of frequency domain data augmentation for camera-based BEV map segmentation. We observe that high-frequency information in camera images is particularly crucial for accurate segmentation. Based on this insight, we propose High-frequency Shuffle Data Augmentation (HSDA), a novel data augmentation strategy that enhances a network's ability to interpret high-frequency image content. This approach encourages the network to distinguish relevant high-frequency information from noise, leading to improved segmentation results for small and intricate image regions, as well as sharper edge and detail perception. Evaluated on the nuScenes dataset, our method demonstrates broad applicability across various BEV map segmentation networks, achieving a new state-of-the-art mean Intersection over Union (mIoU) of 61.3% for camera-only systems. This significant improvement underscores the potential of frequency domain data augmentation for advancing the field of autonomous driving perception. Code has been released: https://github.com/Zarhult/HSDA
- Abstract(参考訳): 自律運転は最近の研究で大きな注目を集めており、Bird's-Eye-View (BEV) マップセグメンテーションはこの分野において重要な役割を担い、安全で信頼性の高い運転の基礎となっている。
データ拡張は、BEVマップセグメンテーションネットワークを改善するための一般的な手法であるが、既存のアプローチは主に空間領域表現の操作に焦点を当てている。
本研究では,カメラを用いたBEVマップセグメンテーションにおける周波数領域データ拡張の可能性について検討する。
カメラ画像の高周波情報は,特に精度の高いセグメンテーションには不可欠である。
この知見に基づいて,高速シャッフルデータ拡張(HSDA)を提案する。
このアプローチにより、ネットワークは関連する高周波情報をノイズと区別し、よりシャープなエッジやディテールの知覚だけでなく、小さく複雑な画像領域のセグメンテーション結果を改善することができる。
本手法はnuScenesデータセットに基づいて,様々なBEVマップセグメンテーションネットワークに適用可能であることを示す。
この大幅な改善は、自律運転知覚の分野を前進させるための周波数領域データ拡張の可能性を強調している。
コードがリリースされた。 https://github.com/Zarhult/HSDA
関連論文リスト
- BEVPose: Unveiling Scene Semantics through Pose-Guided Multi-Modal BEV Alignment [8.098296280937518]
本稿では,カメラとライダーデータからBEV表現を統合するフレームワークであるBEVPoseについて,センサポーズを誘導監視信号として用いた。
ポーズ情報を活用することで,環境の幾何学的側面と意味的側面の両方を捉えた潜在的BEV埋め込みの学習を容易にし,マルチモーダルな感覚入力を調整・融合する。
論文 参考訳(メタデータ) (2024-10-28T12:40:27Z) - Wavelet-based Bi-dimensional Aggregation Network for SAR Image Change Detection [53.842568573251214]
3つのSARデータセットによる実験結果から、我々のWBANetは現代最先端の手法を著しく上回っていることが明らかとなった。
我々のWBANetは、それぞれのデータセットで98.33%、96.65%、96.62%の正確な分類(PCC)を達成している。
論文 参考訳(メタデータ) (2024-07-18T04:36:10Z) - SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - Diffusion-based Data Augmentation for Object Counting Problems [62.63346162144445]
拡散モデルを用いて広範なトレーニングデータを生成するパイプラインを開発する。
拡散モデルを用いて位置ドットマップ上に条件付き画像を生成するのはこれが初めてである。
提案した拡散モデルにおけるカウント損失は,位置ドットマップと生成した群集画像との差を効果的に最小化する。
論文 参考訳(メタデータ) (2024-01-25T07:28:22Z) - Residual Graph Convolutional Network for Bird's-Eye-View Semantic
Segmentation [3.8073142980733]
本稿では,Residual Graph Convolutional (RGC) モジュールを深層CNNに組み込むことを提案する。
RGCモジュールは、完全なBird's-Eye-View (BEV)情報をグラフ空間に効率的に投影する。
RGCネットワークは、IoUとmIoUの4つの最先端ネットワークと4つの変種を上回ります。
論文 参考訳(メタデータ) (2023-12-07T05:04:41Z) - Local Magnification for Data and Feature Augmentation [53.04028225837681]
LOMA(Local Magnification)と呼ばれる,実装が容易かつモデルフリーなデータ拡張手法を提案する。
LOMAは、画像の局所領域をランダムに拡大することにより、追加のトレーニングデータを生成する。
実験の結果,提案するLOMAと標準データ拡張を組み合わせることで,画像分類や物体検出の性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-11-15T02:51:59Z) - Efficient Hybrid Transformer: Learning Global-local Context for Urban
Sence Segmentation [11.237929167356725]
都市景観画像のセマンティックセグメンテーションのための効率的なハイブリッドトランスフォーマ(EHT)を提案する。
EHTはCNNとTransformerを利用して、グローバルなローカルコンテキストを学び、特徴表現を強化する。
提案されたEHTはUAVidテストセットで67.0% mIoUを達成し、他の軽量モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2021-09-18T13:55:38Z) - MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake
Detection [80.83725644958633]
現在のディープフェイク生成法では、偽画像やビデオの周波数スペクトルに識別的アーティファクトが残されている。
MD-CSDNetwork(MD-CSDNetwork)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T14:11:53Z) - KeepAugment: A Simple Information-Preserving Data Augmentation Approach [42.164438736772134]
本稿では,強調画像の忠実度を高めるために,emphKeepAugmentと呼ばれるシンプルかつ高効率なアプローチを提案する。
このアイデアはまず、元の画像上の重要な領域を検出し、拡張中にこれらの情報的領域を保存するために、サリエンシマップを使用する。
実験により,提案手法は,先行技術データ拡張方式において著しく改善されていることを示す。
論文 参考訳(メタデータ) (2020-11-23T22:43:04Z) - FusionLane: Multi-Sensor Fusion for Lane Marking Semantic Segmentation
Using Deep Neural Networks [1.0062127381149395]
本稿では,LIDARとカメラ融合深層ニューラルネットワークに基づくレーンマーキングセマンティックセマンティックセマンティクス手法を提案する。
14,000以上の画像データセットを用いた実験により,雲鳥の眼球図のセマンティックセグメンテーションにおいて,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-03-09T20:33:30Z) - ADRN: Attention-based Deep Residual Network for Hyperspectral Image
Denoising [52.01041506447195]
ノイズの多いHSIからクリーンなHSIへのマッピングを学習するために,注目に基づくディープ残差ネットワークを提案する。
実験の結果,提案手法は定量的および視覚的評価において最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-04T08:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。