Fugu-MT 論文翻訳(概要): Object-Scene-Camera Decomposition and Recomposition for Data-Efficient Monocular 3D Object Detection

論文の概要: Object-Scene-Camera Decomposition and Recomposition for Data-Efficient Monocular 3D Object Detection

arxiv url: http://arxiv.org/abs/2602.20627v1
Date: Tue, 24 Feb 2026 07:22:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.6429
Title: Object-Scene-Camera Decomposition and Recomposition for Data-Efficient Monocular 3D Object Detection
Title（参考訳）: データ効率のよいモノクロ3次元物体検出のためのオブジェクトシーンカメラ分解と再分解
Authors: Zhaonian Kuang, Rui Ding, Meng Yang, Xinhu Zheng, Gang Hua,
Abstract要約: モノクロ3Dオブジェクト検出(M3OD)は本質的に悪用されているため、高性能なディープラーニングベースのM3ODモデルをトレーニングするには、大量のラベル付きデータが必要である。トレーニングデータをより効率的に活用するために,オンラインのオブジェクト・シーン・カメラ分解と再構成データ操作方式を提案する。
参考スコア（独自算出の注目度）: 20.94974587800414
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Monocular 3D object detection (M3OD) is intrinsically ill-posed, hence training a high-performance deep learning based M3OD model requires a humongous amount of labeled data with complicated visual variation from diverse scenes, variety of objects and camera poses.However, we observe that, due to strong human bias, the three independent entities, i.e., object, scene, and camera pose, are always tightly entangled when an image is captured to construct training data. More specifically, specific 3D objects are always captured in particular scenes with fixed camera poses, and hence lacks necessary diversity. Such tight entanglement induces the challenging issues of insufficient utilization and overfitting to uniform training data. To mitigate this, we propose an online object-scene-camera decomposition and recomposition data manipulation scheme to more efficiently exploit the training data. We first fully decompose training images into textured 3D object point models and background scenes in an efficient computation and storage manner. We then continuously recompose new training images in each epoch by inserting the 3D objects into the freespace of the background scenes, and rendering them with perturbed camera poses from textured 3D point representation. In this way, the refreshed training data in all epochs can cover the full spectrum of independent object, scene, and camera pose combinations. This scheme can serve as a plug-and-play component to boost M3OD models, working flexibly with both fully and sparsely supervised settings. In the sparsely-supervised setting, objects closest to the ego-camera for all instances are sparsely annotated. We then can flexibly increase the annotated objects to control annotation cost. For validation, our method is widely applied to five representative M3OD models and evaluated on both the KITTI and the more complicated Waymo datasets.
Abstract（参考訳）: モノクロ3Dオブジェクト検出(M3OD)は本質的に悪用されているため,高性能深層学習に基づくM3ODモデルのトレーニングには,多様なシーン,多種多様なオブジェクト,カメラポーズからの複雑な視覚的変化を伴う大量のラベル付きデータが必要となるが,しかしながら,強い人間の偏見により,画像がキャプチャされてトレーニングデータを構築する際には,3つの独立したエンティティ,すなわちオブジェクト,シーン,カメラポーズが常に密に絡み合っていることが観察される。具体的には、特定の3Dオブジェクトは、常に固定されたカメラポーズで特定のシーンでキャプチャされるため、必要な多様性が欠如している。このような厳密な絡み合いは、統一的なトレーニングデータに不十分な利用と過度に適合するという難題を引き起こす。これを緩和するために,トレーニングデータをより効率的に活用するためのオンラインオブジェクト・シーン・カメラ分解と再構成データ操作方式を提案する。まず、トレーニング画像をテクスチャ化された3Dオブジェクトポイントモデルと背景シーンに、効率的な計算と記憶方式で完全に分解する。次に,背景シーンの空き空間に3Dオブジェクトを挿入し,テクスチャ化された3Dポイント表現から乱れたカメラポーズでレンダリングすることで,各エポックに新たなトレーニングイメージを連続的に再構成する。このように、すべてのエポックにおけるリフレッシュされたトレーニングデータは、独立したオブジェクト、シーン、カメラの組み合わせの完全なスペクトルをカバーすることができる。このスキームは、M3ODモデルを強化するためのプラグアンドプレイコンポーネントとして機能し、完全に制御された設定と疎結合な設定の両方で柔軟に機能する。スパース制御された設定では、すべてのインスタンスに対してエゴカメラに最も近いオブジェクトはスパースアノテートされる。アノテーションのコストを制御するために、アノテーション付きオブジェクトを柔軟に増やすことができます。検証のために,本手法は5つの代表的なM3ODモデルに適用され,KITTIとより複雑なWaymoデータセットの両方で評価される。

関連論文リスト

MonoSOWA: Scalable monocular 3D Object detector Without human Annotations [0.0]
本稿では,ドメイン固有のアノテーションを使わずに,単一のRGBカメラから3Dオブジェクト検出器をトレーニングする方法を提案する。この手法は3つの公開データセットで評価され、人間のラベルを使わずに、先行研究よりもかなりの差で性能が向上する。
論文参考訳（メタデータ） (2025-01-16T11:35:22Z)
SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views [36.02533658048349]
本研究では,3次元テクスチャメッシュを再構成し,スパースビュー画像に対する相対カメラのポーズを推定する新しい手法であるSpaRPを提案する。 SpaRPは2次元拡散モデルから知識を抽出し、それらを微調整し、スパースビュー間の3次元空間関係を暗黙的に推論する。テクスチャ化されたメッシュを生成するのに、わずか20秒しかかからず、カメラは入力ビューにポーズする。
論文参考訳（メタデータ） (2024-08-19T17:53:10Z)
Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文参考訳（メタデータ） (2024-07-05T09:43:05Z)
DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and Depth from Monocular Videos [76.01906393673897]
本研究では,モノクラービデオから3次元運動と深度を協調的に学習する自己教師手法を提案する。本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。我々のモデルは評価されたすべての設定において優れたパフォーマンスを提供する。
論文参考訳（メタデータ） (2024-03-09T12:22:46Z)
PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。 PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文参考訳（メタデータ） (2023-11-20T18:57:55Z)
AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。 3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文参考訳（メタデータ） (2023-07-07T17:59:14Z)
FlowCam: Training Generalizable 3D Radiance Fields without Camera Poses via Pixel-Aligned Scene Flow [26.528667940013598]
ポーズ画像からの3次元ニューラルネットワークの再構成は、自己教師付き表現学習の有望な方法として現れている。これらの3Dシーンの学習者が大規模ビデオデータに展開するのを防ぐ重要な課題は、構造から移動までの正確なカメラポーズに依存することである。本稿では,オンラインと1つのフォワードパスでカメラポーズと3Dニューラルシーン表現を共同で再構築する手法を提案する。
論文参考訳（メタデータ） (2023-05-31T20:58:46Z)
3D Reconstruction of Objects in Hands without Real World 3D Supervision [12.70221786947807]
ハンドヘルドオブジェクトを再構築するためのモデル学習をスケールアップするために,3Dインスペクションを活用するモジュールを提案する。具体的には、ビデオから多視点2Dマスクの監視を抽出し、形状収集から3次元形状の前兆を抽出する。我々はこれらの間接的な3次元キューを用いて、単一のRGB画像から物体の3次元形状を予測する占有ネットワークを訓練する。
論文参考訳（メタデータ） (2023-05-04T17:56:48Z)
D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文参考訳（メタデータ） (2021-08-19T00:49:01Z)
MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文参考訳（メタデータ） (2021-08-10T18:39:56Z)
CanonPose: Self-Supervised Monocular 3D Human Pose Estimation in the Wild [31.334715988245748]
ラベルのないマルチビューデータから1つの画像3Dポーズ推定器を学習する自己教師型アプローチを提案する。既存のほとんどの方法とは対照的に、校正カメラは必要とせず、移動カメラから学ぶことができる。成功の鍵は、ビューとトレーニングサンプルの情報を混ぜ合わせた、新しく偏見のない再建目標である。
論文参考訳（メタデータ） (2020-11-30T10:42:27Z)
Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文参考訳（メタデータ） (2020-10-08T14:49:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。