論文の概要: Exploring Camera Encoder Designs for Autonomous Driving Perception
- arxiv url: http://arxiv.org/abs/2407.07276v1
- Date: Tue, 9 Jul 2024 23:44:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 18:21:11.948328
- Title: Exploring Camera Encoder Designs for Autonomous Driving Perception
- Title(参考訳): 自律走行認識のためのカメラエンコーダ設計の探索
- Authors: Barath Lakshmanan, Joshua Chen, Shiyi Lan, Maying Shen, Zhiding Yu, Jose M. Alvarez,
- Abstract要約: ベースラインよりも8.79%のmAP向上を実現したAVカメラエンコーダに最適化されたアーキテクチャを開発した。
私たちは、私たちの努力がAV用のイメージエンコーダの甘いクックブックになり、次のレベルのドライブシステムへの道を歩むことができると考えています。
- 参考スコア(独自算出の注目度): 36.65794720685284
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The cornerstone of autonomous vehicles (AV) is a solid perception system, where camera encoders play a crucial role. Existing works usually leverage pre-trained Convolutional Neural Networks (CNN) or Vision Transformers (ViTs) designed for general vision tasks, such as image classification, segmentation, and 2D detection. Although those well-known architectures have achieved state-of-the-art accuracy in AV-related tasks, e.g., 3D Object Detection, there remains significant potential for improvement in network design due to the nuanced complexities of industrial-level AV dataset. Moreover, existing public AV benchmarks usually contain insufficient data, which might lead to inaccurate evaluation of those architectures.To reveal the AV-specific model insights, we start from a standard general-purpose encoder, ConvNeXt and progressively transform the design. We adjust different design parameters including width and depth of the model, stage compute ratio, attention mechanisms, and input resolution, supported by systematic analysis to each modifications. This customization yields an architecture optimized for AV camera encoder achieving 8.79% mAP improvement over the baseline. We believe our effort could become a sweet cookbook of image encoders for AV and pave the way to the next-level drive system.
- Abstract(参考訳): 自動運転車(AV)の基盤は、カメラエンコーダが重要な役割を果たす、しっかりとした認識システムである。
既存の作業は通常、画像分類、セグメンテーション、および2D検出などの一般的な視覚タスクのために設計された事前訓練された畳み込みニューラルネットワーク(CNN)またはビジョントランスフォーマー(ViT)を利用する。
これらのよく知られたアーキテクチャは、AV関連タスク、例えば3Dオブジェクト検出において最先端の精度を達成したが、産業レベルのAVデータセットの複雑さのため、ネットワーク設計の改善には大きな可能性を秘めている。
さらに、既存の公開AVベンチマークには、これらのアーキテクチャの不正確な評価につながる可能性のあるデータが含まれており、AV固有のモデル洞察を明らかにするために、標準汎用エンコーダであるConvNeXtから始め、設計を段階的に変換する。
モデルの幅と深さ,ステージ計算比,アテンション機構,入力分解能などの異なる設計パラメータを,各修正に対する系統的解析によって支援する。
このカスタマイズにより、AVカメラエンコーダに最適化されたアーキテクチャがベースラインに対して8.79%のmAP改善を実現している。
私たちは、私たちの努力がAV用のイメージエンコーダの甘いクックブックになり、次のレベルのドライブシステムへの道を歩むことができると考えています。
関連論文リスト
- Quantum Down Sampling Filter for Variational Auto-encoder [0.504868948270058]
変分オートエンコーダ(VAE)は、生成モデリングと画像再構成に不可欠なツールである。
本研究は, 画像の解像度を向上し, 細部を保存することにより, 画像の画質を向上させることを目的とする。
本稿では,VAEエンコーダの量子コンピューティング技術とデコーダの畳み込みニューラルネットワーク(CNN)を組み合わせたハイブリッドモデルを提案する。
論文 参考訳(メタデータ) (2025-01-09T11:08:55Z) - Multimodal Autoregressive Pre-training of Large Vision Encoders [85.39154488397931]
本稿では,汎用視覚エンコーダのファミリーであるAIMV2について述べる。
エンコーダはマルチモーダル評価だけでなく,ローカライゼーションやグラウンド,分類といったビジョンベンチマークでも優れている。
論文 参考訳(メタデータ) (2024-11-21T18:31:25Z) - EncodeNet: A Framework for Boosting DNN Accuracy with Entropy-driven Generalized Converting Autoencoder [3.2595221511180306]
我々は,画像からクラスを分類し易い画像に変換する新しい手法を開発した。
本稿では,Converting Autoencoderの一般化されたアルゴリズム設計とクラス内クラスタリングを用いて,代表画像の識別を行う。
実験により,EncodeNetはVGG16の精度を92.64%から94.05%に改善し,RestNet20は74.56%から76.04%に改善した。
論文 参考訳(メタデータ) (2024-04-21T20:45:18Z) - CoBEV: Elevating Roadside 3D Object Detection with Depth and Height Complementarity [34.025530326420146]
我々は、新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるComplementary-BEVを開発した。
道路カメラを用いたDAIR-V2X-IとRope3Dの公開3次元検出ベンチマークについて広範な実験を行った。
カメラモデルのAPスコアが初めてDAIR-V2X-Iで80%に達する。
論文 参考訳(メタデータ) (2023-10-04T13:38:53Z) - Perspective-aware Convolution for Monocular 3D Object Detection [2.33877878310217]
画像の長距離依存性をキャプチャする新しい視点対応畳み込み層を提案する。
画像画素ごとの深度軸に沿った特徴を抽出するために畳み込みカーネルを強制することにより、パースペクティブ情報をネットワークアーキテクチャに組み込む。
我々は、KITTI3Dデータセットの性能向上を実証し、簡単なベンチマークで平均23.9%の精度を達成した。
論文 参考訳(メタデータ) (2023-08-24T17:25:36Z) - Hybrid Transformer Based Feature Fusion for Self-Supervised Monocular
Depth Estimation [33.018300966769516]
アートのほとんどの状態(SOTA)は、与えられた入力画像から不均一マップを予測するために、自己監督的かつ教師なしの領域で機能する。
我々のモデルは、2つの完全畳み込み深度エンコーダを用いて学習した画素ごとの局所情報と、トランスフォーマーエンコーダによって異なるスケールで学習されたグローバルな文脈情報とを融合させる。
これは、ほとんどの標準ベンチマークで最先端のパフォーマンスを達成するために、機能領域におけるマスク誘導マルチストリームの畳み込みを使用する。
論文 参考訳(メタデータ) (2022-11-20T20:00:21Z) - Deep Learning Computer Vision Algorithms for Real-time UAVs On-board
Camera Image Processing [77.34726150561087]
本稿では,ディープラーニングに基づくコンピュータビジョンアルゴリズムを用いて,小型UAVのリアルタイムセンサ処理を実現する方法について述べる。
すべてのアルゴリズムは、ディープニューラルネットワークに基づく最先端の画像処理手法を用いて開発されている。
論文 参考訳(メタデータ) (2022-11-02T11:10:42Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。