論文の概要: SurfaceAug: Closing the Gap in Multimodal Ground Truth Sampling
- arxiv url: http://arxiv.org/abs/2312.03808v1
- Date: Wed, 6 Dec 2023 16:51:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 17:13:24.136232
- Title: SurfaceAug: Closing the Gap in Multimodal Ground Truth Sampling
- Title(参考訳): surfaceaug:マルチモーダルグラウンド真理サンプリングにおけるギャップを閉じる
- Authors: Ryan Rubel and Nathan Clark and Andrew Dudash
- Abstract要約: 本稿では,新しい地中真理サンプリングアルゴリズムであるSurfaceAugを紹介する。
SurfaceAugはイメージとポイントクラウドの両方を再サンプリングすることでオブジェクトをペーストし、両方のモダリティでオブジェクトレベルの変換を可能にする。
実験により、SurfaceAugは車検出タスクにおいて既存の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite recent advances in both model architectures and data augmentation,
multimodal object detectors still barely outperform their LiDAR-only
counterparts. This shortcoming has been attributed to a lack of sufficiently
powerful multimodal data augmentation. To address this, we present SurfaceAug,
a novel ground truth sampling algorithm. SurfaceAug pastes objects by
resampling both images and point clouds, enabling object-level transformations
in both modalities. We evaluate our algorithm by training a multimodal detector
on KITTI and compare its performance to previous works. We show experimentally
that SurfaceAug outperforms existing methods on car detection tasks and
establishes a new state of the art for multimodal ground truth sampling.
- Abstract(参考訳): 近年のモデルアーキテクチャとデータ拡張の進歩にもかかわらず、マルチモーダルオブジェクト検出器はLiDARのみの検出器よりもわずかに優れている。
この欠点は、十分に強力なマルチモーダルデータ拡張がないためである。
そこで本研究では,新しい基底真理サンプリングアルゴリズムであるSurfaceAugを提案する。
SurfaceAugはイメージとポイントクラウドの両方を再サンプリングすることでオブジェクトをペーストし、両方のモードでオブジェクトレベルの変換を可能にする。
我々は,KITTI上でマルチモーダル検出器を訓練することによりアルゴリズムの評価を行い,その性能を以前の研究と比較した。
surfaceaugは,カー検出タスクにおいて既存の手法を上回っており,マルチモーダルグラウンド真理サンプリングの新たな技術を確立している。
関連論文リスト
- SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - Multimodal 3D Object Detection on Unseen Domains [37.142470149311904]
ドメイン適応アプローチは、この問題に対処するために、テストディストリビューションから無注釈のサンプルへのアクセスを前提とします。
マルチモーダル融合および3次元オブジェクト検出のための教師付きコントラスト学習フレームワークであるCLIX$text3D$を提案する。
CLIX$text3D$は、複数のデータセットシフト下での最先端のドメイン一般化性能を示す。
論文 参考訳(メタデータ) (2024-04-17T21:47:45Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Multimodal Industrial Anomaly Detection by Crossmodal Feature Mapping [12.442574943138794]
本稿では、点雲とRGB画像を利用して異常をローカライズする産業用マルチモーダル異常検出(AD)タスクについて検討する。
我々は,新しい軽量かつ高速なフレームワークを導入し,特徴を1つのモダリティからもう1つのモダリティへのマップを,名目標本上で学習する。
論文 参考訳(メタデータ) (2023-12-07T18:41:21Z) - LiDARFormer: A Unified Transformer-based Multi-task Network for LiDAR
Perception [15.919789515451615]
変換器に基づく新しいLiDARマルチタスク学習パラダイムを提案する。
LiDARFormerはクロスタスクのシナジーを利用して、LiDAR知覚タスクのパフォーマンスを向上させる。
LiDARFormerは3D検出とセマンティックセグメンテーションの両方のために、大規模なnuScenesとOpenデータセットで評価されている。
論文 参考訳(メタデータ) (2023-03-21T20:52:02Z) - CAT-Det: Contrastively Augmented Transformer for Multi-modal 3D Object
Detection [32.06145370498289]
マルチモーダル3Dオブジェクト検出(CAT-Det)のためのコントラスト変換器を提案する。
CAT-DetはPointformer (PT) ブランチと Imageformer (IT) ブランチとCMT (Cross-Modal Transformer) モジュールで構成される2ストリーム構造を採用している。
本稿では,一方向マルチモーダルデータ拡張(OMDA)手法を提案する。
論文 参考訳(メタデータ) (2022-04-01T10:07:25Z) - MDMMT: Multidomain Multimodal Transformer for Video Retrieval [63.872634680339644]
MSRVTTおよびLSMDCベンチマークのテキストからビデオ検索タスクに新しい最新技術を紹介します。
異なるデータセットでのトレーニングは、互いにテスト結果を改善することができることを示す。
論文 参考訳(メタデータ) (2021-03-19T09:16:39Z) - Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。
トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。
また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文 参考訳(メタデータ) (2020-12-23T15:23:16Z) - AOT: Appearance Optimal Transport Based Identity Swapping for Forgery
Detection [76.7063732501752]
顔偽造検出のための外観の相違が大きい新しい識別スワップアルゴリズムを提案する。
外観のギャップは主に、照明と肌の色における大きな相違から生じる。
実画像パッチと偽画像パッチの混在とを識別するために識別器を導入する。
論文 参考訳(メタデータ) (2020-11-05T06:17:04Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。