Fugu-MT 論文翻訳(概要): VERIA: Verification-Centric Multimodal Instance Augmentation for Long-Tailed 3D Object Detection

論文の概要: VERIA: Verification-Centric Multimodal Instance Augmentation for Long-Tailed 3D Object Detection

arxiv url: http://arxiv.org/abs/2603.24294v1
Date: Wed, 25 Mar 2026 13:30:38 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-26 21:06:11.308918
Title: VERIA: Verification-Centric Multimodal Instance Augmentation for Long-Tailed 3D Object Detection
Title（参考訳）: VERIA:長尺3次元物体検出のための検証中心型マルチモーダルインスタンス拡張
Authors: Jumin Lee, Siyeong Lee, Namil Kim, Sung-Eui Yoon,
Abstract要約: 同期RGB-LiDARインスタンスを合成する画像ファーストのマルチモーダル拡張フレームワークであるVERIAを提案する。 nuScenesとLyftでは、VERIAはLiDARのみとマルチモーダル設定の両方でレアクラスの3Dオブジェクト検出を改善している。
参考スコア（独自算出の注目度）: 18.45906642724696
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Long-tail distributions in driving datasets pose a fundamental challenge for 3D perception, as rare classes exhibit substantial intra-class diversity yet available samples cover this variation space only sparsely. Existing instance augmentation methods based on copy-paste or asset libraries improve rare-class exposure but are often limited in fine-grained diversity and scene-context placement. We propose VERIA, an image-first multimodal augmentation framework that synthesizes synchronized RGB--LiDAR instances using off-the-shelf foundation models and curates them with sequential semantic and geometric verification. This verification-centric design tends to select instances that better match real LiDAR statistics while spanning a wider range of intra-class variation. Stage-wise yield decomposition provides a log-based diagnostic of pipeline reliability. On nuScenes and Lyft, VERIA improves rare-class 3D object detection in both LiDAR-only and multimodal settings. Our code is available at https://sgvr.kaist.ac.kr/VERIA/.
Abstract（参考訳）: 運転データセットにおける長い尾の分布は、3D知覚にとって根本的な課題となる。コピーペーストやアセットライブラリをベースとした既存のインスタンス拡張手法は、レアクラスの露出を改善するが、細粒度の多様性やシーンコンテキストの配置に制限されることが多い。我々は,市販の基盤モデルを用いて同期RGB-LiDARインスタンスを合成し,シーケンシャルなセマンティックおよび幾何的検証を施した画像ファーストマルチモーダル拡張フレームワークVERIAを提案する。この検証中心の設計は、クラス内のより広い範囲にまたがって、実際のLiDAR統計に適合するインスタンスを選択する傾向がある。段階的な収率分解は、パイプラインの信頼性のログベースの診断を提供する。 nuScenesとLyftでは、VERIAはLiDARのみとマルチモーダル設定の両方でレアクラスの3Dオブジェクト検出を改善している。私たちのコードはhttps://sgvr.kaist.ac.kr/VERIA/で利用可能です。

関連論文リスト

Approaching Outside: Scaling Unsupervised 3D Object Detection from 2D Scene [22.297964850282177]
教師なし3次元検出のためのLiDAR-2D Self-paced Learning (LiSe)を提案する。 RGB画像は、正確な2Dローカライゼーションキューを提供するLiDARデータの貴重な補完となる。本フレームワークでは,適応型サンプリングと弱いモデルアグリゲーション戦略を組み込んだ自己評価学習パイプラインを考案する。
論文参考訳（メタデータ） (2024-07-11T14:58:49Z)
Multimodal 3D Object Detection on Unseen Domains [37.142470149311904]
ドメイン適応アプローチは、この問題に対処するために、テストディストリビューションから無注釈のサンプルへのアクセスを前提とします。マルチモーダル融合および3次元オブジェクト検出のための教師付きコントラスト学習フレームワークであるCLIX$text3D$を提案する。 CLIX$text3D$は、複数のデータセットシフト下での最先端のドメイン一般化性能を示す。
論文参考訳（メタデータ） (2024-04-17T21:47:45Z)
Just Add $100 More: Augmenting NeRF-based Pseudo-LiDAR Point Cloud for Resolving Class-imbalance Problem [12.26293873825084]
本稿では,小クラスのミニチュアや現実世界のオブジェクトのサラウンドビューをキャプチャしたビデオから生成された擬似LiDAR点雲を活用することを提案する。 Pseudo Ground Truth Aug (PGT-Aug) と呼ばれるこの手法は, (i) 2D-to-3Dビュー合成モデルを用いたボリューム3Dインスタンス再構成, (ii)LiDAR強度推定によるオブジェクトレベルドメインアライメント, (iii) 地上情報と地図情報からのコンテキスト認識配置のハイブリッド化という3つのステップから構成される。
論文参考訳（メタデータ） (2024-03-18T08:50:04Z)
Long-Tailed 3D Detection via Multi-Modal Fusion [58.89765900064689]
本研究では,Long-Tailed 3D Detection (LT3D) の問題点について検討した。単モードLiDARとRGB検出器を独立に訓練した多モード遅延核融合(MMLF)により,レアクラスの精度が特に向上することが指摘されている。我々のMMLFはLT3Dの先行作業よりも優れており、特に12.8から20.0mAPまでの6つのレアなクラスで改善されています。
論文参考訳（メタデータ） (2023-12-18T07:14:25Z)
Robust 3D Object Detection from LiDAR-Radar Point Clouds via Cross-Modal Feature Augmentation [7.364627166256136]
本稿では,点雲からの3次元物体検出のための新しい枠組みを提案する。背骨の微細化と幻覚発生を同時に行うために,空間的および特徴的に複数のアライメントを導入する。 View-of-Delftデータセットの実験により,提案手法は,レーダとLiDARの両方のオブジェクト検出において,最先端(SOTA)手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-09-29T15:46:59Z)
Fully Sparse Fusion for 3D Object Detection [69.32694845027927]
現在広く使われているマルチモーダル3D検出法は、通常、密度の高いBird-Eye-View特徴マップを使用するLiDARベースの検出器上に構築されている。完全にスパースなアーキテクチャは、長距離知覚において非常に効率的であるため、注目を集めている。本稿では,新たに出現するフルスパースアーキテクチャにおいて,画像のモダリティを効果的に活用する方法を検討する。
論文参考訳（メタデータ） (2023-04-24T17:57:43Z)
Generalized Few-Shot 3D Object Detection of LiDAR Point Cloud for Autonomous Driving [91.39625612027386]
我々は,一般的な(ベース)オブジェクトに対して大量のトレーニングデータを持つが,レア(ノーベル)クラスに対してはごく少数のデータしか持たない,一般化された数発の3Dオブジェクト検出という新しいタスクを提案する。具体的には、画像と点雲の奥行きの違いを分析し、3D LiDARデータセットにおける少数ショット設定の実践的原理を示す。この課題を解決するために,既存の3次元検出モデルを拡張し,一般的なオブジェクトと稀なオブジェクトの両方を認識するためのインクリメンタルな微調整手法を提案する。
論文参考訳（メタデータ） (2023-02-08T07:11:36Z)
Boosting 3D Object Detection by Simulating Multimodality on Point Clouds [51.87740119160152]
本稿では,LiDAR 画像検出器に追従する特徴や応答をシミュレートすることで,単一モダリティ (LiDAR) 3次元物体検出器を高速化する新しい手法を提案する。このアプローチでは、単一モダリティ検出器をトレーニングする場合のみ、LiDARイメージデータを必要とし、十分にトレーニングされた場合には、推論時にのみLiDARデータが必要である。 nuScenesデータセットの実験結果から,本手法はSOTA LiDARのみの3D検出器よりも優れていることがわかった。
論文参考訳（メタデータ） (2022-06-30T01:44:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。