論文の概要: MonoCLUE : Object-Aware Clustering Enhances Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2511.07862v1
- Date: Wed, 12 Nov 2025 01:24:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.510124
- Title: MonoCLUE : Object-Aware Clustering Enhances Monocular 3D Object Detection
- Title(参考訳): MonoCLUE : モノクロ3次元物体検出を実現するオブジェクト認識クラスタリング
- Authors: Sunghun Yang, Minhyeok Lee, Jungho Lee, Sangyoun Lee,
- Abstract要約: モノクロ3Dオブジェクト検出は、自律運転に費用対効果をもたらすが、不適切な深度と視野の制限に悩まされる。
視覚特徴の局所的クラスタリングと一般化されたシーンメモリの両方を活用することにより,モノクロ3次元検出を向上するMonoCLUEを提案する。
MonoCLUEは、KITTIベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 30.96410334301976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D object detection offers a cost-effective solution for autonomous driving but suffers from ill-posed depth and limited field of view. These constraints cause a lack of geometric cues and reduced accuracy in occluded or truncated scenes. While recent approaches incorporate additional depth information to address geometric ambiguity, they overlook the visual cues crucial for robust recognition. We propose MonoCLUE, which enhances monocular 3D detection by leveraging both local clustering and generalized scene memory of visual features. First, we perform K-means clustering on visual features to capture distinct object-level appearance parts (e.g., bonnet, car roof), improving detection of partially visible objects. The clustered features are propagated across regions to capture objects with similar appearances. Second, we construct a generalized scene memory by aggregating clustered features across images, providing consistent representations that generalize across scenes. This improves object-level feature consistency, enabling stable detection across varying environments. Lastly, we integrate both local cluster features and generalized scene memory into object queries, guiding attention toward informative regions. Exploiting a unified local clustering and generalized scene memory strategy, MonoCLUE enables robust monocular 3D detection under occlusion and limited visibility, achieving state-of-the-art performance on the KITTI benchmark.
- Abstract(参考訳): モノクロ3Dオブジェクト検出は、自律運転に費用対効果があるが、不適切な深さと視野の制限に悩まされている。
これらの制約は、幾何学的な手がかりの欠如と、隠されたシーンや散りばめられたシーンの精度の低下を引き起こす。
近年のアプローチでは、幾何学的曖昧さに対処するために追加の深度情報が含まれているが、頑健な認識に欠かせない視覚的手がかりを見落としている。
視覚特徴の局所的クラスタリングと一般化されたシーンメモリの両方を活用することにより,モノクロ3次元検出を向上するMonoCLUEを提案する。
まず、視覚的特徴に基づいてK平均クラスタリングを行い、異なるオブジェクトレベルの外観部分(例えば、ボンネット、車屋根)をキャプチャし、部分的な可視物体の検出を改善する。
クラスタ化された機能は、似たような外観のオブジェクトをキャプチャするために、リージョン間で伝搬される。
第2に、画像間でクラスタ化された特徴を集約し、シーン間で一般化する一貫した表現を提供することにより、一般化されたシーンメモリを構築する。
これにより、オブジェクトレベルの機能の一貫性が向上し、さまざまな環境にわたって安定した検出が可能になる。
最後に、ローカルクラスタ機能と一般化されたシーンメモリの両方をオブジェクトクエリに統合し、情報領域に注意を向ける。
統一されたローカルクラスタリングと一般化されたシーンメモリ戦略を実行することで、MonoCLUEは、閉塞と可視性に制限されたロバストなモノクル3D検出を可能にし、KITTIベンチマークで最先端のパフォーマンスを達成する。
関連論文リスト
- Learning to Borrow Features for Improved Detection of Small Objects in Single-Shot Detectors [0.0]
そこで本研究では,クラス内のより大規模で意味的にリッチなインスタンスから,小さなオブジェクト表現を識別的特徴の「バラバラ化」を可能にする新しいフレームワークを提案する。
本手法は, 複雑な視覚環境下でのロバストな物体検出に有望な方向を提供するため, ベースライン法よりも小さな物体検出精度を著しく向上させる。
論文 参考訳(メタデータ) (2025-04-30T01:18:33Z) - Towards Flexible 3D Perception: Object-Centric Occupancy Completion Augments 3D Object Detection [54.78470057491049]
占領は3Dシーンの知覚に有望な代替手段として現れてきた。
オブジェクトbboxのサプリメントとして,オブジェクト中心の占有率を導入する。
これらの特徴は,最先端の3Dオブジェクト検出器の検出結果を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-12-06T16:12:38Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - RBGNet: Ray-based Grouping for 3D Object Detection [104.98776095895641]
本稿では,点雲からの正確な3次元物体検出のための投票型3次元検出器RBGNetフレームワークを提案する。
決定された光線群を用いて物体表面上の点方向の特徴を集約する。
ScanNet V2 と SUN RGB-D による最先端の3D 検出性能を実現する。
論文 参考訳(メタデータ) (2022-04-05T14:42:57Z) - ImpDet: Exploring Implicit Fields for 3D Object Detection [74.63774221984725]
我々は、境界ボックス回帰を暗黙の関数として見る新しい視点を導入する。
これは、Implicit DetectionまたはImpDetと呼ばれる提案されたフレームワークにつながります。
我々のImpDetは、異なる局所的な3次元空間の点に特定の値を割り当て、高品質な境界を生成することができる。
論文 参考訳(メタデータ) (2022-03-31T17:52:12Z) - VIN: Voxel-based Implicit Network for Joint 3D Object Detection and
Segmentation for Lidars [12.343333815270402]
統合ニューラルネットワーク構造は、ジョイント3Dオブジェクト検出とポイントクラウドセグメンテーションのために提示される。
私たちは、検出ラベルとセグメンテーションラベルの両方からの豊富な監視を活用しています。
論文 参考訳(メタデータ) (2021-07-07T02:16:20Z) - Synthesizing the Unseen for Zero-shot Object Detection [72.38031440014463]
そこで本研究では,視覚領域における視覚的特徴と視覚的対象の両方を学習するために,視覚的特徴を合成することを提案する。
クラスセマンティックスを用いた新しい生成モデルを用いて特徴を生成するだけでなく,特徴を識別的に分離する。
論文 参考訳(メタデータ) (2020-10-19T12:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。