論文の概要: GATE3D: Generalized Attention-based Task-synergized Estimation in 3D*
- arxiv url: http://arxiv.org/abs/2504.11014v2
- Date: Wed, 16 Apr 2025 01:38:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 11:15:27.433780
- Title: GATE3D: Generalized Attention-based Task-synergized Estimation in 3D*
- Title(参考訳): GATE3D: 汎用アテンションベース3次元タスクシナージュ推定法*
- Authors: Eunsoo Im, Jung Kwon Lee, Changhyun Jee,
- Abstract要約: GATE3Dは、弱い監督による一般化されたモノクル3Dオブジェクト検出のための新しいフレームワークである。
以上の結果から,GATE3Dは限られたアノテートデータからの学習を著しく加速することが示された。
- 参考スコア(独自算出の注目度): 0.7373617024876725
- License:
- Abstract: The emerging trend in computer vision emphasizes developing universal models capable of simultaneously addressing multiple diverse tasks. Such universality typically requires joint training across multi-domain datasets to ensure effective generalization. However, monocular 3D object detection presents unique challenges in multi-domain training due to the scarcity of datasets annotated with accurate 3D ground-truth labels, especially beyond typical road-based autonomous driving contexts. To address this challenge, we introduce a novel weakly supervised framework leveraging pseudo-labels. Current pretrained models often struggle to accurately detect pedestrians in non-road environments due to inherent dataset biases. Unlike generalized image-based 2D object detection models, achieving similar generalization in monocular 3D detection remains largely unexplored. In this paper, we propose GATE3D, a novel framework designed specifically for generalized monocular 3D object detection via weak supervision. GATE3D effectively bridges domain gaps by employing consistency losses between 2D and 3D predictions. Remarkably, our model achieves competitive performance on the KITTI benchmark as well as on an indoor-office dataset collected by us to evaluate the generalization capabilities of our framework. Our results demonstrate that GATE3D significantly accelerates learning from limited annotated data through effective pre-training strategies, highlighting substantial potential for broader impacts in robotics, augmented reality, and virtual reality applications. Project page: https://ies0411.github.io/GATE3D/
- Abstract(参考訳): コンピュータビジョンの新たなトレンドは、複数の多様なタスクを同時に処理できるユニバーサルモデルの開発に重点を置いている。
このような普遍性は、効果的な一般化を保証するために、多領域データセット間の共同トレーニングを必要とする。
しかし、モノクロ3Dオブジェクト検出は、特に道路ベースの自律運転コンテキストを超えて、正確な3Dグラウンドトゥルースラベルに注釈付けされたデータセットが不足しているため、マルチドメイントレーニングにおいてユニークな課題を呈している。
この課題に対処するために,擬似ラベルを利用した弱教師付きフレームワークを提案する。
現在の事前訓練されたモデルは、固有のデータセットバイアスのために、非道路環境の歩行者を正確に検出するのに苦労することが多い。
一般化された画像ベース2次元物体検出モデルとは異なり、単分子3次元物体検出における同様の一般化を実現することは、ほとんど探索されていない。
本稿では,弱監督による一眼的物体検出のための新しいフレームワークであるGATE3Dを提案する。
GATE3Dは2Dと3Dの整合性損失を利用してドメインギャップを効果的に橋渡しする。
ここでは,KITTIベンチマークと,フレームワークの一般化能力を評価するために収集した屋内オフィスデータセットの競合性能について述べる。
我々の結果は、GATE3Dが効果的な事前学習戦略を通じて、限られたアノテートデータからの学習を著しく加速し、ロボット工学、拡張現実、バーチャルリアリティーアプリケーションに大きな影響を与える可能性を浮き彫りにしていることを示している。
プロジェクトページ: https://ies0411.github.io/GATE3D/
関連論文リスト
- GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation [67.56268991234371]
OV-Uni3DETRは、様々なシナリオにおける最先端のパフォーマンスを達成し、既存のメソッドを平均6%以上上回っている。
コードと事前訓練されたモデルは、後にリリースされる。
論文 参考訳(メタデータ) (2024-03-28T17:05:04Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。
提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文 参考訳(メタデータ) (2022-04-02T03:48:03Z) - 3D Multi-Object Tracking Using Graph Neural Networks with Cross-Edge
Modality Attention [9.150245363036165]
Batch3DMOTは、現実のシーンを、方向付き、非循環型、カテゴリー非結合な追跡グラフとして表現する。
モーダル間断続性を緩和するクロスエッジアテンション機構を用いたマルチモーダルグラフニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-03-21T12:44:17Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。