論文の概要: Towards Intrinsic-Aware Monocular 3D Object Detection
- arxiv url: http://arxiv.org/abs/2603.27059v1
- Date: Sat, 28 Mar 2026 00:29:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.760099
- Title: Towards Intrinsic-Aware Monocular 3D Object Detection
- Title(参考訳): 固有認識型モノクロ3次元物体検出に向けて
- Authors: Zhihao Zhang, Abhinav Kumar, Xiaoming Liu,
- Abstract要約: Mono3Dは、単一のRGB画像からオブジェクトの位置と次元を3D空間で推測することを目的としている。
既存の手法は、カメラの内在に非常に敏感であり、多様な設定をまたいだ一般化に苦慮している。
言語基底表現による固有変化をモデル化し,適応する,統合された固有認識フレームワークであるMonoIAを提案する。
- 参考スコア(独自算出の注目度): 15.283620179657703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D object detection (Mono3D) aims to infer object locations and dimensions in 3D space from a single RGB image. Despite recent progress, existing methods remain highly sensitive to camera intrinsics and struggle to generalize across diverse settings, since intrinsics govern how 3D scenes are projected onto the image plane. We propose MonoIA, a unified intrinsic-aware framework that models and adapts to intrinsic variation through a language-grounded representation. The key insight is that intrinsic variation is not a numeric difference but a perceptual transformation that alters apparent scale, perspective, and spatial geometry. To capture this effect, MonoIA employs large language models and vision-language models to generate intrinsic embeddings that encode the visual and geometric implications of camera parameters. These embeddings are hierarchically integrated into the detection network via an Intrinsic Adaptation Module, allowing the model to modulate its feature representations according to camera-specific configurations and maintain consistent 3D detection across intrinsics. This shifts intrinsic modeling from numeric conditioning to semantic representation, enabling robust and unified perception across cameras. Extensive experiments show that MonoIA achieves new state-of-the-art results on standard benchmarks including KITTI, Waymo, and nuScenes (e.g., +1.18% on the KITTI leaderboard), and further improves performance under multi-dataset training (e.g., +4.46% on KITTI Val).
- Abstract(参考訳): モノクロ3次元物体検出(Monocular 3D)は、単一のRGB画像から3次元空間内の物体の位置と寸法を推定することを目的としている。
近年の進歩にもかかわらず、既存の手法はカメラの内在に非常に敏感であり、画像平面に3Dシーンが投影される方法を管理するため、様々な設定にまたがる一般化に苦慮している。
言語基底表現による固有変化をモデル化し,適応する,統合された固有認識フレームワークであるMonoIAを提案する。
重要な洞察は、内在的変動は数値的な違いではなく、目に見えるスケール、視点、空間幾何学を変える知覚的変換であるということである。
この効果を捉えるために、MonoIAは大きな言語モデルと視覚言語モデルを使用して、カメラパラメータの視覚的および幾何学的含意を符号化する固有の埋め込みを生成する。
これらの埋め込みは、Intrinsic Adaptation Moduleを通じて検出ネットワークに階層的に統合され、カメラ固有の構成に従って特徴表現を変調し、intrinsics全体で一貫した3D検出を維持できる。
このことは、固有のモデリングを数値条件付けから意味表現にシフトさせ、カメラ間の堅牢で統一的な認識を可能にする。
大規模な実験により、MonoIAは、KITTI、Waymo、nuScenes(例えば、KITTIのリーダーボードでは+1.18%)などの標準ベンチマークで新しい最先端の結果を達成し、マルチデータセットトレーニング(KITTI Valでは+4.46%)におけるパフォーマンスをさらに向上している。
関連論文リスト
- CoIn3D: Revisiting Configuration-Invariant Multi-Camera 3D Object Detection [21.94827944503605]
マルチカメラ3Dオブジェクト検出(MC3D)は、マルチセンサー物理エージェントの展開により注目を集めている。
現在のソリューションは、単純にメタカメラを統一表現に用いているが、包括的な考慮を欠いている。
CoIn3Dは、ソース設定から未表示のターゲット設定への強力な転送可能性を実現する汎用的なMC3Dフレームワークである。
論文 参考訳(メタデータ) (2026-03-05T10:49:46Z) - Unified Semantic Transformer for 3D Scene Understanding [55.415468022487005]
我々は、単一のモデル内に多様な3Dセマンティックタスクを統一する新しいフィードフォワードニューラルネットワークUNITEを紹介する。
我々のモデルは、完全なエンドツーエンドで見えないシーンで動作し、完全な3Dセマンティックジオメトリを推測するのにほんの数秒しかかからない。
UNITEはいくつかの異なる意味的タスクにおいて最先端のパフォーマンスを達成し、タスク固有のモデルよりも優れていることを実証する。
論文 参考訳(メタデータ) (2025-12-16T12:49:35Z) - Generalizing Monocular 3D Object Detection [5.861362376335855]
モノクロ3Dオブジェクト検出(Monocular 3D object detection, Monocular 3D)は、オブジェクトのクラス、3D位置、寸法、方向を単一の画像から推定する基本的なコンピュータビジョンタスクである。
この論文は、Mono3Dモデルをさまざまなシナリオに一般化するという課題に対処する。
論文 参考訳(メタデータ) (2025-08-27T06:06:18Z) - Common3D: Self-Supervised Learning of 3D Morphable Models for Common Objects in Neural Feature Space [58.623106094568776]
3Dモデル(3DMM)は、オブジェクトカテゴリの形状や外観を表現する強力なツールである。
我々は,オブジェクト中心ビデオのコレクションから,オブジェクトの3DMMを自己管理的に学習する新しい手法であるCommon3Dを導入する。
Common3Dは、様々な視覚タスクをゼロショットで解くことができる最初の完全に自己教師された方法である。
論文 参考訳(メタデータ) (2025-04-30T15:42:23Z) - MonoTAKD: Teaching Assistant Knowledge Distillation for Monocular 3D Object Detection [43.67544474555326]
カメラを用いた学生モデルにロバストな3次元視覚知識を伝達するために,モノクラー指導支援知識蒸留(Monocular teaching Assistant Knowledge Distillation, MonoTAKD)を導入する。
実験の結果,MonoTAKDはKITTI3Dデータセット上で最先端の性能を達成できた。
論文 参考訳(メタデータ) (2024-04-07T10:39:04Z) - Decaf: Monocular Deformation Capture for Face and Hand Interactions [77.75726740605748]
本稿では,単眼のRGBビデオから人間の顔と対話する人間の手を3Dで追跡する手法を提案する。
動作中の非剛性面の変形を誘発する定形物体として手をモデル化する。
本手法は,マーカーレスマルチビューカメラシステムで取得した現実的な顔変形を伴う手動・インタラクションキャプチャーデータセットに頼っている。
論文 参考訳(メタデータ) (2023-09-28T17:59:51Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Monocular 3D Detection with Geometric Constraints Embedding and
Semi-supervised Training [3.8073142980733]
我々は,KM3D-Netと呼ばれる,RGB画像のみを用いたモノクル3Dオブジェクト検出のための新しいフレームワークを提案する。
我々は、対象のキーポイント、次元、方向を予測するための完全な畳み込みモデルを設計し、これらの推定を視点幾何学的制約と組み合わせて位置属性を計算する。
論文 参考訳(メタデータ) (2020-09-02T00:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。