論文の概要: Co-Fix3D: Enhancing 3D Object Detection with Collaborative Refinement
- arxiv url: http://arxiv.org/abs/2408.07999v2
- Date: Fri, 15 Nov 2024 04:09:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:36:03.742406
- Title: Co-Fix3D: Enhancing 3D Object Detection with Collaborative Refinement
- Title(参考訳): Co-Fix3D:コラボレーティブリファインメントによる3次元物体検出の強化
- Authors: Wenxuan Li, Qin Zou, Chi Chen, Bo Du, Long Chen, Jian Zhou, Hongkai Yu,
- Abstract要約: 運転シナリオにおける3次元物体検出は、複雑な道路環境の課題に直面している。
我々はCo-Fix3Dと呼ばれる高度な検出フレームワークを提案する。
Co-Fix3DはLocal and Global Enhancement (LGE)モジュールを統合し、Bird's Eye View (BEV)機能を洗練する。
- 参考スコア(独自算出の注目度): 37.24731059950228
- License:
- Abstract: 3D object detection in driving scenarios faces the challenge of complex road environments, which can lead to the loss or incompleteness of key features, thereby affecting perception performance. To address this issue, we propose an advanced detection framework called Co-Fix3D. Co-Fix3D integrates Local and Global Enhancement (LGE) modules to refine Bird's Eye View (BEV) features. The LGE module uses Discrete Wavelet Transform (DWT) for pixel-level local optimization and incorporates an attention mechanism for global optimization. To handle varying detection difficulties, we adopt multi-head LGE modules, enabling each module to focus on targets with different levels of detection complexity, thus further enhancing overall perception capability. Experimental results show that on the nuScenes dataset's LiDAR benchmark, Co-Fix3D achieves 69.4\% mAP and 73.5\% NDS, while on the multimodal benchmark, it achieves 72.3\% mAP and 74.7\% NDS. The source code is publicly available at \href{https://github.com/rubbish001/Co-Fix3d}{https://github.com/rubbish001/Co-Fix3d}.
- Abstract(参考訳): 運転シナリオにおける3次元物体検出は複雑な道路環境の課題に直面しており、重要な特徴の喪失や不完全性を招き、知覚性能に影響を及ぼす可能性がある。
この問題に対処するため,我々はCo-Fix3Dと呼ばれる高度な検出フレームワークを提案する。
Co-Fix3DはLocal and Global Enhancement (LGE)モジュールを統合し、Bird's Eye View (BEV)機能を洗練する。
LGEモジュールはピクセルレベルの局所最適化に離散ウェーブレット変換(DWT)を使用し、グローバル最適化のための注意機構を組み込んでいる。
様々な検出困難に対処するため、我々はマルチヘッドLGEモジュールを採用し、各モジュールが異なるレベルの検出複雑性を持つターゲットに集中できるようにし、全体的な認識能力を向上する。
実験の結果、nuScenesデータセットのLiDARベンチマークでは、Co-Fix3Dは69.4\% mAPと73.5\% NDSを獲得し、マルチモーダルベンチマークでは72.3\% mAPと74.7\% NDSを達成した。
ソースコードは \href{https://github.com/rubbish001/Co-Fix3d}{https://github.com/rubbish001/Co-Fix3d} で公開されている。
関連論文リスト
- Benchmarking and Improving Bird's Eye View Perception Robustness in Autonomous Driving [55.93813178692077]
本稿では,BEVアルゴリズムのレジリエンスを評価するためのベンチマークスイートであるRoboBEVを紹介する。
検出,マップセグメンテーション,深さ推定,占有予測といったタスクにまたがる33の最先端のBEVベースの知覚モデルを評価する。
また, 事前学習や深度自由なBEVトランスフォーメーションなどの戦略が, アウト・オブ・ディストリビューションデータに対するロバスト性を高める上で有効であることを示す。
論文 参考訳(メタデータ) (2024-05-27T17:59:39Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - REB: Reducing Biases in Representation for Industrial Anomaly Detection [16.550844182346314]
本稿では,ドメインバイアスを考慮した表現におけるReduceing Biases (REB)を提案する。
また,特徴空間における局所密度バイアスを低減し,効果的な異常検出を実現するために,局所密度KNN(LDKNN)を提案する。
提案したREB法は,Vgg11やResnet18などの小さなバックボーンネットワークを用いて,広く使用されているMVTec AD上で99.5%のIm.AUROCを実現する。
論文 参考訳(メタデータ) (2023-08-24T05:32:29Z) - Industrial Anomaly Detection and Localization Using Weakly-Supervised Residual Transformers [7.487975220416574]
弱教師付きResidual Transformer」は、広範囲なアノテーションの必要性を最小限に抑えつつ、高いAD精度を実現することを目的としている。
我々は「PosFAR(Positional Fast Anomaly Residuals)」と呼ばれる残留型トランスモデルを設計する。
ベンチマークデータセットMVTec-ADでは、提案したWeakRESTフレームワークが83.0%の驚くべき平均精度(AP)を達成した。
論文 参考訳(メタデータ) (2023-06-06T08:19:30Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文 参考訳(メタデータ) (2022-03-23T08:47:01Z) - Towards Overcoming False Positives in Visual Relationship Detection [95.15011997876606]
視覚的関係検出(VRD)における偽陽性率の高い原因について検討する。
本稿では,偽陽性の影響を軽減する堅牢なVRDフレームワークとして,Spatially-Aware Balanced negative pRoposal sAmpling(SABRA)を提案する。
論文 参考訳(メタデータ) (2020-12-23T06:28:00Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。