Fugu-MT 論文翻訳(概要): Exploring Camera Encoder Designs for Autonomous Driving Perception

論文の概要: Exploring Camera Encoder Designs for Autonomous Driving Perception

arxiv url: http://arxiv.org/abs/2407.07276v1
Date: Tue, 9 Jul 2024 23:44:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-11 18:21:11.948328
Title: Exploring Camera Encoder Designs for Autonomous Driving Perception
Title（参考訳）: 自律走行認識のためのカメラエンコーダ設計の探索
Authors: Barath Lakshmanan, Joshua Chen, Shiyi Lan, Maying Shen, Zhiding Yu, Jose M. Alvarez,
Abstract要約: ベースラインよりも8.79%のmAP向上を実現したAVカメラエンコーダに最適化されたアーキテクチャを開発した。私たちは、私たちの努力がAV用のイメージエンコーダの甘いクックブックになり、次のレベルのドライブシステムへの道を歩むことができると考えています。
参考スコア（独自算出の注目度）: 36.65794720685284
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The cornerstone of autonomous vehicles (AV) is a solid perception system, where camera encoders play a crucial role. Existing works usually leverage pre-trained Convolutional Neural Networks (CNN) or Vision Transformers (ViTs) designed for general vision tasks, such as image classification, segmentation, and 2D detection. Although those well-known architectures have achieved state-of-the-art accuracy in AV-related tasks, e.g., 3D Object Detection, there remains significant potential for improvement in network design due to the nuanced complexities of industrial-level AV dataset. Moreover, existing public AV benchmarks usually contain insufficient data, which might lead to inaccurate evaluation of those architectures.To reveal the AV-specific model insights, we start from a standard general-purpose encoder, ConvNeXt and progressively transform the design. We adjust different design parameters including width and depth of the model, stage compute ratio, attention mechanisms, and input resolution, supported by systematic analysis to each modifications. This customization yields an architecture optimized for AV camera encoder achieving 8.79% mAP improvement over the baseline. We believe our effort could become a sweet cookbook of image encoders for AV and pave the way to the next-level drive system.
Abstract（参考訳）: 自動運転車(AV)の基盤は、カメラエンコーダが重要な役割を果たす、しっかりとした認識システムである。既存の作業は通常、画像分類、セグメンテーション、および2D検出などの一般的な視覚タスクのために設計された事前訓練された畳み込みニューラルネットワーク(CNN)またはビジョントランスフォーマー(ViT)を利用する。これらのよく知られたアーキテクチャは、AV関連タスク、例えば3Dオブジェクト検出において最先端の精度を達成したが、産業レベルのAVデータセットの複雑さのため、ネットワーク設計の改善には大きな可能性を秘めている。さらに、既存の公開AVベンチマークには、これらのアーキテクチャの不正確な評価につながる可能性のあるデータが含まれており、AV固有のモデル洞察を明らかにするために、標準汎用エンコーダであるConvNeXtから始め、設計を段階的に変換する。モデルの幅と深さ,ステージ計算比,アテンション機構,入力分解能などの異なる設計パラメータを,各修正に対する系統的解析によって支援する。このカスタマイズにより、AVカメラエンコーダに最適化されたアーキテクチャがベースラインに対して8.79%のmAP改善を実現している。私たちは、私たちの努力がAV用のイメージエンコーダの甘いクックブックになり、次のレベルのドライブシステムへの道を歩むことができると考えています。

関連論文リスト

Q-Former Autoencoder: A Modern Framework for Medical Anomaly Detection [12.245379864678291]
本稿では,最新のオートエンコーダベースのフレームワークであるQ-Former Autoencoderを提案する。凍結した視覚基盤モデルを特徴抽出器として直接利用し、ドメイン固有の微調整なしでリッチで多段階な高レベル表現を可能にする。本研究は,視覚基盤モデルエンコーダが自然画像に基づいて事前訓練され,医用画像解析タスクに効果的に応用できる可能性を強調した。
論文参考訳（メタデータ） (2025-07-24T14:55:33Z)
Pow3R: Empowering Unconstrained 3D Reconstruction with Camera and Scene Priors [18.149244316089284]
我々はPow3rを提案する。Pow3rは大きな3次元視覚の回帰モデルであり、入力モードにおいて非常に多用途である。本研究では,3次元再構成,深度補完,多視点深度予測,多視点ステレオ,多視点ポーズ推定タスクについて検討した。
論文参考訳（メタデータ） (2025-03-21T17:12:30Z)
Label-Efficient LiDAR Semantic Segmentation with 2D-3D Vision Transformer Adapters [32.21090169762889]
BALViTは、凍結視覚モデルを利用して強力なLiDARエンコーダを学習するためのアモーダル機能エンコーダである。コードとモデルは、http://balvit.cs.uni-freiburg.deで公開しています。
論文参考訳（メタデータ） (2025-03-05T09:30:49Z)
Multimodal Autoregressive Pre-training of Large Vision Encoders [85.39154488397931]
本稿では,汎用視覚エンコーダのファミリーであるAIMV2について述べる。エンコーダはマルチモーダル評価だけでなく,ローカライゼーションやグラウンド,分類といったビジョンベンチマークでも優れている。
論文参考訳（メタデータ） (2024-11-21T18:31:25Z)
EncodeNet: A Framework for Boosting DNN Accuracy with Entropy-driven Generalized Converting Autoencoder [3.2595221511180306]
我々は,画像からクラスを分類し易い画像に変換する新しい手法を開発した。本稿では,Converting Autoencoderの一般化されたアルゴリズム設計とクラス内クラスタリングを用いて,代表画像の識別を行う。実験により,EncodeNetはVGG16の精度を92.64%から94.05%に改善し,RestNet20は74.56%から76.04%に改善した。
論文参考訳（メタデータ） (2024-04-21T20:45:18Z)
CoBEV: Elevating Roadside 3D Object Detection with Depth and Height Complementarity [34.025530326420146]
我々は、新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるComplementary-BEVを開発した。道路カメラを用いたDAIR-V2X-IとRope3Dの公開3次元検出ベンチマークについて広範な実験を行った。カメラモデルのAPスコアが初めてDAIR-V2X-Iで80%に達する。
論文参考訳（メタデータ） (2023-10-04T13:38:53Z)
Perspective-aware Convolution for Monocular 3D Object Detection [2.33877878310217]
画像の長距離依存性をキャプチャする新しい視点対応畳み込み層を提案する。画像画素ごとの深度軸に沿った特徴を抽出するために畳み込みカーネルを強制することにより、パースペクティブ情報をネットワークアーキテクチャに組み込む。我々は、KITTI3Dデータセットの性能向上を実証し、簡単なベンチマークで平均23.9%の精度を達成した。
論文参考訳（メタデータ） (2023-08-24T17:25:36Z)
Hybrid Transformer Based Feature Fusion for Self-Supervised Monocular Depth Estimation [33.018300966769516]
アートのほとんどの状態(SOTA)は、与えられた入力画像から不均一マップを予測するために、自己監督的かつ教師なしの領域で機能する。我々のモデルは、2つの完全畳み込み深度エンコーダを用いて学習した画素ごとの局所情報と、トランスフォーマーエンコーダによって異なるスケールで学習されたグローバルな文脈情報とを融合させる。これは、ほとんどの標準ベンチマークで最先端のパフォーマンスを達成するために、機能領域におけるマスク誘導マルチストリームの畳み込みを使用する。
論文参考訳（メタデータ） (2022-11-20T20:00:21Z)
Deep Learning Computer Vision Algorithms for Real-time UAVs On-board Camera Image Processing [77.34726150561087]
本稿では,ディープラーニングに基づくコンピュータビジョンアルゴリズムを用いて,小型UAVのリアルタイムセンサ処理を実現する方法について述べる。すべてのアルゴリズムは、ディープニューラルネットワークに基づく最先端の画像処理手法を用いて開発されている。
論文参考訳（メタデータ） (2022-11-02T11:10:42Z)
Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。 VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文参考訳（メタデータ） (2022-03-20T02:59:51Z)
Transformers in Self-Supervised Monocular Depth Estimation with Unknown Camera Intrinsics [13.7258515433446]
自己教師付き単眼深度推定は3次元シーン理解において重要な課題である。自己教師付き単眼深度推定のための視覚変換器の適応方法を示す。本研究は,トランスフォーマーをベースとしたアーキテクチャが,より堅牢で汎用性の高い性能を実現する方法を示す。
論文参考訳（メタデータ） (2022-02-07T13:17:29Z)
An Empirical Study of Training End-to-End Vision-and-Language Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文参考訳（メタデータ） (2021-11-03T17:55:36Z)
Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。デュアルエンコーダは検索スケールとして魅力的です視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文参考訳（メタデータ） (2021-03-30T17:57:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。