論文の概要: S-LAM3D: Segmentation-Guided Monocular 3D Object Detection via Feature Space Fusion
- arxiv url: http://arxiv.org/abs/2509.05999v1
- Date: Sun, 07 Sep 2025 10:14:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.810212
- Title: S-LAM3D: Segmentation-Guided Monocular 3D Object Detection via Feature Space Fusion
- Title(参考訳): S-LAM3D:特徴空間融合による分割誘導単眼物体検出
- Authors: Diana-Alexandra Sas, Florin Oniga,
- Abstract要約: モノクロ3Dオブジェクト検出は、使用する入力の性質のため、コンピュータビジョンの課題を表す。
本稿では,事前計算されたセグメンテーション情報を挿入し,特徴空間に直接ファインダをファインダに注入して検出を誘導する分離戦略を提案する。
提案手法はKITTI 3D Object Detection Benchmarkで評価され,RGB画像にのみ依存する等価なアーキテクチャをシーン内の小さなオブジェクトに対して実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Monocular 3D Object Detection represents a challenging Computer Vision task due to the nature of the input used, which is a single 2D image, lacking in any depth cues and placing the depth estimation problem as an ill-posed one. Existing solutions leverage the information extracted from the input by using Convolutional Neural Networks or Transformer architectures as feature extraction backbones, followed by specific detection heads for 3D parameters prediction. In this paper, we introduce a decoupled strategy based on injecting precomputed segmentation information priors and fusing them directly into the feature space for guiding the detection, without expanding the detection model or jointly learning the priors. The focus is on evaluating the impact of additional segmentation information on existing detection pipelines without adding additional prediction branches. The proposed method is evaluated on the KITTI 3D Object Detection Benchmark, outperforming the equivalent architecture that relies only on RGB image features for small objects in the scene: pedestrians and cyclists, and proving that understanding the input data can balance the need for additional sensors or training data.
- Abstract(参考訳): モノクロ3Dオブジェクト検出は、入力の性質が1つの2次元画像であり、奥行きの手がかりが無く、奥行き推定問題が不備な状態に置かれているため、コンピュータビジョンの課題を表現している。
既存のソリューションでは、畳み込みニューラルネットワークやトランスフォーマーアーキテクチャを使って入力から抽出した情報を特徴抽出バックボーンとして利用し、3Dパラメータ予測のための特定の検出ヘッドを出力する。
本稿では,事前計算されたセグメンテーション情報を注入して,検出モデルを拡張したり,事前を共同学習したりすることなく,検出を誘導する特徴空間に直接ファインダをファインダにファインダする分離戦略を提案する。
その焦点は、追加の予測ブランチを追加することなく、既存の検出パイプラインに対する追加のセグメンテーション情報の影響を評価することである。
提案手法は,KITTI 3D Object Detection Benchmarkで評価され,歩行者やサイクリストなどの小物体のRGB画像機能にのみ依存する等価なアーキテクチャよりも優れており,入力データを理解することで,センサやトレーニングデータの必要性のバランスがとれることを証明している。
関連論文リスト
- 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Perspective-aware Convolution for Monocular 3D Object Detection [2.33877878310217]
画像の長距離依存性をキャプチャする新しい視点対応畳み込み層を提案する。
画像画素ごとの深度軸に沿った特徴を抽出するために畳み込みカーネルを強制することにより、パースペクティブ情報をネットワークアーキテクチャに組み込む。
我々は、KITTI3Dデータセットの性能向上を実証し、簡単なベンチマークで平均23.9%の精度を達成した。
論文 参考訳(メタデータ) (2023-08-24T17:25:36Z) - OA-DET3D: Embedding Object Awareness as a General Plug-in for Multi-Camera 3D Object Detection [77.43427778037203]
我々は3Dオブジェクト検出を改善するプラグインモジュールであるOA-DET3Dを紹介する。
OA-DET3Dは、オブジェクト中心の深度情報と前景の擬似点を活用することにより、オブジェクトの表現を高める。
我々は、OA-DET3Dの有効性を検証するために、nuScenesデータセットとArgoverse 2データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object
Detection [78.90102636266276]
SASA(Semantics-Augmented Set Abstraction)と呼ばれる新しい集合抽象化手法を提案する。
そこで本研究では, 推定点前景スコアに基づいて, より重要な前景点の維持を支援するセマンティックス誘導点サンプリングアルゴリズムを提案する。
実際には、SASAは、前景オブジェクトに関連する貴重な点を識別し、ポイントベースの3D検出のための特徴学習を改善するのに有効である。
論文 参考訳(メタデータ) (2022-01-06T08:54:47Z) - M3DSSD: Monocular 3D Single Stage Object Detector [82.25793227026443]
特徴アライメントと非対称非局所的注意を有するモノクロ3次元単段物体検出器(M3DSSD)を提案する。
提案したM3DSSDは,KITTIデータセット上のモノラルな3Dオブジェクト検出手法よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2021-03-24T13:09:11Z) - Categorical Depth Distribution Network for Monocular 3D Object Detection [7.0405916639906785]
モノラル3D検出の重要な課題は、物体の深度を正確に予測することです。
多くの手法は3次元検出を支援するために直接深度を推定しようとするが、深度不正確な結果、限られた性能を示す。
Categorical Depth Distribution Network (CADDN) を提案し、3次元空間の適切な深さ間隔にリッチなコンテキスト特徴情報を投影する。
提案手法をkitti 3d object detection benchmarkで検証し, 単項法のうち1位にランク付けした。
論文 参考訳(メタデータ) (2021-03-01T16:08:29Z) - Dynamic Edge Weights in Graph Neural Networks for 3D Object Detection [0.0]
本稿では,LiDARスキャンにおける物体検出のためのグラフニューラルネットワーク(GNN)における注目に基づく特徴集約手法を提案する。
GNNの各層では、ノードごとの入力特徴を対応する上位特徴にマッピングする線形変換とは別に、ノードごとの注意を隠蔽する。
KITTIデータセットを用いた実験により,本手法は3次元物体検出に匹敵する結果が得られることが示された。
論文 参考訳(メタデータ) (2020-09-17T12:56:17Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。