論文の概要: CoL3D: Collaborative Learning of Single-view Depth and Camera Intrinsics for Metric 3D Shape Recovery
- arxiv url: http://arxiv.org/abs/2502.08902v1
- Date: Thu, 13 Feb 2025 02:36:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:48:31.015382
- Title: CoL3D: Collaborative Learning of Single-view Depth and Camera Intrinsics for Metric 3D Shape Recovery
- Title(参考訳): CoL3D:メトリクス3次元形状復元のための一視点深度とカメラ固有の協調学習
- Authors: Chenghao Zhang, Lubin Fan, Shen Cao, Bojian Wu, Jieping Ye,
- Abstract要約: 本研究では,1枚の画像から3次元形状を学習するために,CoL3Dと呼ばれる奥行きとカメラの内在性を推定するための協調学習フレームワークを提案する。
具体的には、CoL3Dは統合ネットワークを採用し、ディープ、カメラ固有の3Dポイントクラウドという3つのレベルで協調最適化を行う。
- 参考スコア(独自算出の注目度): 31.398410174061166
- License:
- Abstract: Recovering the metric 3D shape from a single image is particularly relevant for robotics and embodied intelligence applications, where accurate spatial understanding is crucial for navigation and interaction with environments. Usually, the mainstream approaches achieve it through monocular depth estimation. However, without camera intrinsics, the 3D metric shape can not be recovered from depth alone. In this study, we theoretically demonstrate that depth serves as a 3D prior constraint for estimating camera intrinsics and uncover the reciprocal relations between these two elements. Motivated by this, we propose a collaborative learning framework for jointly estimating depth and camera intrinsics, named CoL3D, to learn metric 3D shapes from single images. Specifically, CoL3D adopts a unified network and performs collaborative optimization at three levels: depth, camera intrinsics, and 3D point clouds. For camera intrinsics, we design a canonical incidence field mechanism as a prior that enables the model to learn the residual incident field for enhanced calibration. Additionally, we incorporate a shape similarity measurement loss in the point cloud space, which improves the quality of 3D shapes essential for robotic applications. As a result, when training and testing on a single dataset with in-domain settings, CoL3D delivers outstanding performance in both depth estimation and camera calibration across several indoor and outdoor benchmark datasets, which leads to remarkable 3D shape quality for the perception capabilities of robots.
- Abstract(参考訳): 単一の画像からメートル法3D形状を復元することは、特にロボット工学やインボディード・インテリジェンス・アプリケーションにおいて重要であり、正確な空間的理解はナビゲーションや環境との相互作用に不可欠である。
通常、主流のアプローチは単分子深度推定によって達成される。
しかし、カメラの内在がなければ、3次元メートル法は奥行きだけでは回収できない。
本研究では,この2つの要素間の相互関係を明らかにするために,奥行きがカメラ内在性を推定するための3次元事前制約となることを理論的に実証する。
そこで本研究では,1枚の画像から3次元形状を学習するために,CoL3Dと呼ばれる奥行きとカメラの内在性を共同で推定するための協調学習フレームワークを提案する。
具体的には、CoL3Dは統合ネットワークを採用し、ディープ、カメラ固有の3Dポイントクラウドという3つのレベルで協調最適化を行う。
カメラ固有の分野では、キャリブレーションの強化のためにモデルが残射場を学習できるように、標準入射場機構を事前として設計する。
さらに, 点雲空間に形状類似度測定損失を取り入れ, ロボット応用に必要な3次元形状の質を向上させる。
結果として、ドメイン内の設定のある単一のデータセットでトレーニングとテストを行う場合、CoL3Dは、いくつかの屋内および屋外ベンチマークデータセットにおいて、深さ推定とカメラキャリブレーションの両方において優れたパフォーマンスを提供し、ロボットの知覚能力に優れた3D形状品質をもたらす。
関連論文リスト
- BIP3D: Bridging 2D Images and 3D Perception for Embodied Intelligence [11.91274849875519]
画像中心の3次元知覚モデルBIP3Dを導入し,点中心の手法の限界を克服する。
我々は、事前学習された2次元視覚基盤モデルを利用して意味理解を強化し、空間理解を改善するために空間拡張モジュールを導入する。
我々の実験では、BIP3Dは、EmbodiedScanベンチマークで現在の最先端結果より優れており、3D検出タスクでは5.69%、視覚的グラウンドタスクでは15.25%の改善が達成されている。
論文 参考訳(メタデータ) (2024-11-22T11:35:42Z) - Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Ray3D: ray-based 3D human pose estimation for monocular absolute 3D
localization [3.5379706873065917]
キャリブレーションカメラを用いた一眼レフ3D(Ray3D)絶対姿勢推定法を提案する。
我々の手法は既存の最先端モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2022-03-22T05:42:31Z) - Learning Stereopsis from Geometric Synthesis for 6D Object Pose
Estimation [11.999630902627864]
現在のモノクラーベース6Dオブジェクトポーズ推定法は、一般的にRGBDベースの手法よりも競争力の低い結果が得られる。
本稿では,短いベースライン2ビュー設定による3次元幾何体積に基づくポーズ推定手法を提案する。
実験により,本手法は最先端の単分子法よりも優れ,異なる物体やシーンにおいて堅牢であることが示された。
論文 参考訳(メタデータ) (2021-09-25T02:55:05Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Geometry-aware data augmentation for monocular 3D object detection [18.67567745336633]
本稿では,自動運転システムにおける必須モジュールの一つであるモノキュラー3次元物体検出について述べる。
重要な課題は、深さ回復問題は単眼データに不備があることです。
我々は,既存の手法が,異なる幾何学的シフトが発生した場合の深さをロバストに推定できないことを明らかにするために,詳細な解析を行う。
上記の操作を,対応する4つの3D対応データ拡張手法に変換する。
論文 参考訳(メタデータ) (2021-04-12T23:12:48Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。