論文の概要: Control Your Queries: Heterogeneous Query Interaction for Camera-Radar Fusion
- arxiv url: http://arxiv.org/abs/2604.25574v1
- Date: Tue, 28 Apr 2026 12:41:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.85718
- Title: Control Your Queries: Heterogeneous Query Interaction for Camera-Radar Fusion
- Title(参考訳): クエリを制御する:カメラとレーダーの融合のための不均一なクエリインタラクション
- Authors: Jialong Wu, Yihan Wang, Matthias Rottmann,
- Abstract要約: 自律走行では、カメラレーダー融合は補完的なセンシングと低い展開コストを提供する。
本稿では,新しい融合パラダイムである不均一なクエリインタラクションと,カメラレーダ3Dオブジェクト検出器であるConFusionを提案する。
- 参考スコア(独自算出の注目度): 25.15090555832147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In autonomous driving, camera-radar fusion offers complementary sensing and low deployment cost. Existing methods perform fusion through input mixing, feature map mixing, or query-based feature sampling. We propose a new fusion paradigm, termed heterogeneous query interaction, and present ConFusion, a camera-radar 3D object detector. ConFusion combines image queries, radar queries, and learnable world queries distributed in 3D space to improve query initialization and object coverage. To encourage cross-type interaction among heterogeneous queries, we introduce heterogeneous query mixing (QMix), which performs dedicated cross-type attention after feature sampling to consolidate complementary object evidence. We further propose interactive query swap sampling (QSwap), which improves feature sampling by allowing related queries to exchange informative feature tokens under attention and geometric constraints. Experiments on the nuScenes dataset show that ConFusion achieves state-of-the-art performance, reaching 59.1 mAP and 65.6 NDS on the validation set, and 61.6 mAP and 67.9 NDS on the test set.
- Abstract(参考訳): 自律走行では、カメラレーダー融合は補完的なセンシングと低い展開コストを提供する。
既存の方法は、入力ミキシング、特徴マップミキシング、クエリベースの特徴サンプリングを通じて融合を行う。
本稿では,新しい融合パラダイムである不均一なクエリインタラクションと,カメラレーダ3Dオブジェクト検出器であるConFusionを提案する。
ConFusionは、画像クエリ、レーダクエリ、学習可能なワールドクエリを3D空間に分散させ、クエリの初期化とオブジェクトカバレッジを改善する。
異種クエリ間のクロスタイプ相互作用を促進するために、特徴サンプリング後に専用のクロスタイプアテンションを実行する異種クエリミキシング(QMix)を導入し、補完的なオブジェクトのエビデンスを統合する。
さらに,対話型クエリスワップサンプリング(QSwap)を提案し,関連するクエリが注目と幾何学的制約の下で情報的特徴トークンを交換できるようにすることにより,特徴サンプリングを改善する。
nuScenesデータセットの実験では、ConFusionは最先端のパフォーマンスを達成し、検証セットでは59.1 mAP、65.6 NDS、テストセットでは61.6 mAP、67.9 NDSに達した。
関連論文リスト
- CtrlFuse: Mask-Prompt Guided Controllable Infrared and Visible Image Fusion [51.060328159429154]
赤外線と可視画像の融合は、相補的なモダリティを組み合わせることで、全天候の知覚可能な画像を生成する。
我々は,マスクプロンプトによって誘導されるインタラクティブな動的融合を可能にする,制御可能な画像融合フレームワークであるCtrlFuseを提案する。
実験では、融合制御性とセグメンテーション精度の両立を実証し、適応されたタスク分岐は元のセグメンテーションモデルよりも優れていた。
論文 参考訳(メタデータ) (2026-01-12T13:36:48Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with
Competitive Query Selection and Adaptive Feature Fusion [82.2425759608975]
赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。
本稿では,この2つの課題に対処する動的適応型マルチスペクトル検出変換器(DAMSDet)を提案する。
4つの公開データセットの実験は、他の最先端の手法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-01T07:03:27Z) - FusionFormer: A Multi-sensory Fusion in Bird's-Eye-View and Temporal
Consistent Transformer for 3D Object Detection [14.457844173630667]
本稿では,FusionFormerと呼ばれる,エンドツーエンドのマルチモーダル・フュージョン・トランスフォーマーベースのフレームワークを提案する。
均一なサンプリング戦略を開発することにより,2次元画像と3次元ボクセルの特徴を自発的に抽出することができる。
テスト時間増強を伴わない3次元物体検出タスクにおいて,72.6% mAP と 75.1% NDS の最先端シングルモデル性能を実現する。
論文 参考訳(メタデータ) (2023-09-11T06:27:25Z) - An Interactively Reinforced Paradigm for Joint Infrared-Visible Image
Fusion and Saliency Object Detection [59.02821429555375]
この研究は、野生の隠れた物体の発見と位置決めに焦点をあて、無人のシステムに役立てる。
経験的分析により、赤外線と可視画像融合(IVIF)は、難しい物体の発見を可能にする。
マルチモーダル・サリエント・オブジェクト検出(SOD)は、画像内の物体の正確な空間的位置を正確に記述する。
論文 参考訳(メタデータ) (2023-05-17T06:48:35Z) - Semantic-aligned Fusion Transformer for One-shot Object Detection [18.58772037047498]
ワンショットオブジェクト検出は、与えられた1つのインスタンスに従って新しいオブジェクトを検出することを目的としている。
現在のアプローチでは、直接転送可能なメタ知識を得るために様々な特徴融合を探索している。
本稿では,これらの問題を解決するために,Semantic-aligned Fusion Transformer (SaFT) というシンプルなアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。