論文の概要: ALIGN: Advanced Query Initialization with LiDAR-Image Guidance for Occlusion-Robust 3D Object Detection
- arxiv url: http://arxiv.org/abs/2512.18187v1
- Date: Sat, 20 Dec 2025 02:51:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.222622
- Title: ALIGN: Advanced Query Initialization with LiDAR-Image Guidance for Occlusion-Robust 3D Object Detection
- Title(参考訳): ALIGN: Occlusion-Robust 3D Object DetectionのためのLiDAR画像誘導による高度なクエリ初期化
- Authors: Janghyun Baek, Mincheol Chang, Seokha Moon, Seung Joon Lee, Jinkyu Kim,
- Abstract要約: 本稿では,オブジェクト指向クエリ初期化のための新しいアプローチであるALIGNを提案する。
本モデルは,LiDAR幾何と画像意味論を統合するOCE(Occlusion-aware Center Estimation)という,3つの重要な構成要素から構成される。
nuScenesベンチマーク実験により、ALIGNは複数の最先端検出器のパフォーマンスを一貫して改善することを示した。
- 参考スコア(独自算出の注目度): 16.336860116706088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent query-based 3D object detection methods using camera and LiDAR inputs have shown strong performance, but existing query initialization strategies,such as random sampling or BEV heatmap-based sampling, often result in inefficient query usage and reduced accuracy, particularly for occluded or crowded objects. To address this limitation, we propose ALIGN (Advanced query initialization with LiDAR and Image GuidaNce), a novel approach for occlusion-robust, object-aware query initialization. Our model consists of three key components: (i) Occlusion-aware Center Estimation (OCE), which integrates LiDAR geometry and image semantics to estimate object centers accurately (ii) Adaptive Neighbor Sampling (ANS), which generates object candidates from LiDAR clustering and supplements each object by sampling spatially and semantically aligned points around it and (iii) Dynamic Query Balancing (DQB), which adaptively balances queries between foreground and background regions. Our extensive experiments on the nuScenes benchmark demonstrate that ALIGN consistently improves performance across multiple state-of-the-art detectors, achieving gains of up to +0.9 mAP and +1.2 NDS, particularly in challenging scenes with occlusions or dense crowds. Our code will be publicly available upon publication.
- Abstract(参考訳): カメラとLiDAR入力を用いた最近のクエリベースの3Dオブジェクト検出手法は、強い性能を示しているが、乱数サンプリングやBEVヒートマップベースのサンプリングのような既存のクエリ初期化戦略は、多くの場合、非効率なクエリの使用と精度の低下をもたらす。
この制限に対処するために, ALIGN (Advanced query initialization with LiDAR and Image GuidaNce) を提案する。
私たちのモデルは3つのキーコンポーネントで構成されています。
一 物体中心を正確に推定するためにLiDAR幾何と画像意味論を統合するOCE(Occlusion-aware Center Estimation)
(二)LiDARクラスタリングから対象候補を生成し、その周囲の空間的・意味的に整合した点をサンプリングし、各対象を補足する適応ニアサンプリング(ANS)。
3) 動的クエリバランシング(DQB)は,前景と背景領域間のクエリを適応的にバランスさせる。
nuScenesベンチマークの広範な実験により、ALIGNは複数の最先端検出器のパフォーマンスを継続的に改善し、最大0.9mAPと+1.2NDSのゲインを達成している。
私たちのコードは出版時に公開されます。
関連論文リスト
- RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion [58.77329237533034]
本稿では3次元物体検出の精度を高めるために,Raar-Camera fusion transformer (RaCFormer)を提案する。
RaCFormerは、nuScenesデータセット上で64.9% mAPと70.2%の優れた結果を得る。
論文 参考訳(メタデータ) (2024-12-17T09:47:48Z) - STONE: A Submodular Optimization Framework for Active 3D Object Detection [20.54906045954377]
正確な3Dオブジェクト検出器をトレーニングするための鍵となる要件は、大量のLiDARベースのポイントクラウドデータが利用できることである。
本稿では,3次元物体検出装置のトレーニングにおけるラベル付けコストを大幅に削減する,統合されたアクティブな3次元物体検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-04T20:45:33Z) - Find n' Propagate: Open-Vocabulary 3D Object Detection in Urban Environments [67.83787474506073]
我々は,現在のLiDARに基づく3Dオブジェクト検出システムの限界に対処する。
本稿では,3次元OVタスクに対する汎用textscFind n' Propagate アプローチを提案する。
我々は、新しいオブジェクトクラスに対する平均精度(AP)を最大3.97倍に向上させる。
論文 参考訳(メタデータ) (2024-03-20T12:51:30Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Exploring Active 3D Object Detection from a Generalization Perspective [58.597942380989245]
不確実性に基づくアクティブな学習ポリシーは、ポイントクラウドの情報性とボックスレベルのアノテーションコストの間のトレードオフのバランスを取れません。
冗長な3次元境界ボックスラベルの点群を階層的にフィルタリングするtextscCrbを提案する。
実験により,提案手法が既存のアクティブラーニング戦略より優れていることが示された。
論文 参考訳(メタデータ) (2023-01-23T02:43:03Z) - D-Align: Dual Query Co-attention Network for 3D Object Detection Based
on Multi-frame Point Cloud Sequence [8.21339007493213]
従来の3Dオブジェクト検出器は一定期間に取得した一連の点を用いて物体を検出する。
近年の研究では、点雲列を利用して物体検出の性能をさらに向上できることが示されている。
D-Alignは,一連の点集合から得られる特徴を調整・集約することで,鳥眼視(BEV)の特徴を効果的に生み出すことができる。
論文 参考訳(メタデータ) (2022-09-30T20:41:25Z) - SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object
Detection [78.90102636266276]
SASA(Semantics-Augmented Set Abstraction)と呼ばれる新しい集合抽象化手法を提案する。
そこで本研究では, 推定点前景スコアに基づいて, より重要な前景点の維持を支援するセマンティックス誘導点サンプリングアルゴリズムを提案する。
実際には、SASAは、前景オブジェクトに関連する貴重な点を識別し、ポイントベースの3D検出のための特徴学習を改善するのに有効である。
論文 参考訳(メタデータ) (2022-01-06T08:54:47Z) - IAFA: Instance-aware Feature Aggregation for 3D Object Detection from a
Single Image [37.83574424518901]
単一の画像からの3Dオブジェクト検出は、自動運転において重要なタスクです。
本稿では,3次元物体検出の精度向上のために有用な情報を集約するインスタンス認識手法を提案する。
論文 参考訳(メタデータ) (2021-03-05T05:47:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。