論文の概要: OpenDlign: Enhancing Open-World 3D Learning with Depth-Aligned Images
- arxiv url: http://arxiv.org/abs/2404.16538v1
- Date: Thu, 25 Apr 2024 11:53:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 13:49:56.915984
- Title: OpenDlign: Enhancing Open-World 3D Learning with Depth-Aligned Images
- Title(参考訳): OpenDlign:depth-aligned Imagesによるオープンワールド3D学習の強化
- Authors: Ye Mao, Junpeng Jing, Krystian Mikolajczyk,
- Abstract要約: OpenDlignはオープンワールドの3D表現を学ぶための新しいフレームワークだ。
これは、点雲投影深度マップから生成された深度に整合した画像を利用する。
既存のベンチマークでは、ゼロショットと少数ショットの3Dタスクで大幅に上回っている。
- 参考スコア(独自算出の注目度): 17.344430840048094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Vision and Language Models (VLMs) have improved open-world 3D representation, facilitating 3D zero-shot capability in unseen categories. Existing open-world methods pre-train an extra 3D encoder to align features from 3D data (e.g., depth maps or point clouds) with CAD-rendered images and corresponding texts. However, the limited color and texture variations in CAD images can compromise the alignment robustness. Furthermore, the volume discrepancy between pre-training datasets of the 3D encoder and VLM leads to sub-optimal 2D to 3D knowledge transfer. To overcome these issues, we propose OpenDlign, a novel framework for learning open-world 3D representations, that leverages depth-aligned images generated from point cloud-projected depth maps. Unlike CAD-rendered images, our generated images provide rich, realistic color and texture diversity while preserving geometric and semantic consistency with the depth maps. OpenDlign also optimizes depth map projection and integrates depth-specific text prompts, improving 2D VLM knowledge adaptation for 3D learning efficient fine-tuning. Experimental results show that OpenDlign significantly outperforms existing benchmarks in zero-shot and few-shot 3D tasks, exceeding prior scores by 8.0% on ModelNet40 and 16.4% on OmniObject3D with just 6 million tuned parameters. Moreover, integrating generated depth-aligned images into existing 3D learning pipelines consistently improves their performance.
- Abstract(参考訳): ビジョンと言語モデル(VLM)の最近の進歩は、オープンワールドの3D表現を改善し、目に見えないカテゴリで3Dゼロショット機能を促進する。
既存のオープンワールドメソッドは、3Dエンコーダを事前トレーニングして、3Dデータ(例えば、深度マップや点雲)からCADレンダリングされた画像と対応するテキストをアライメントする。
しかし、CAD画像における色やテクスチャの変化は、アライメントの堅牢性を損なう可能性がある。
さらに、3DエンコーダとVLMの事前学習データセットのボリューム差は、最適2Dから3Dの知識伝達につながる。
これらの課題を克服するために,オープンワールドの3D表現を学習するための新しいフレームワークであるOpenDlignを提案する。
CADレンダリング画像とは異なり、生成した画像は、深度マップとの幾何学的・意味的整合性を保ちながら、リッチでリアルな色とテクスチャの多様性を提供する。
OpenDlignはまた、深度マップの投影を最適化し、深度固有のテキストプロンプトを統合し、3D学習効率の良い微調整のための2D VLM知識適応を改善している。
実験の結果、OpenDlignはゼロショットと少数ショットの3Dタスクで既存のベンチマークを著しく上回り、ModelNet40では8.0%、OmniObject3Dでは16.4%、調整されたパラメータはわずか600万である。
さらに、既存の3D学習パイプラインに生成された深度に整合したイメージを統合することにより、パフォーマンスが一貫して向上する。
関連論文リスト
- Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models [20.084928490309313]
本稿では,事前学習ビデオ拡散モデルを用いたスケーラブルな3次元生成モデル構築手法を提案する。
微調整により多視点生成能力を解放することにより、大規模な合成多視点データセットを生成し、フィードフォワード3D生成モデルを訓練する。
提案したモデルであるVFusion3Dは、ほぼ3Mの合成マルチビューデータに基づいて訓練され、単一の画像から数秒で3Dアセットを生成することができる。
論文 参考訳(メタデータ) (2024-03-18T17:59:12Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - OpenShape: Scaling Up 3D Shape Representation Towards Open-World
Understanding [53.21204584976076]
我々は,テキスト,画像,点雲のマルチモーダルな共同表現を学習するOpenShapeを紹介する。
複数の3Dデータセットをアンサンブルすることで、トレーニングデータをスケールアップし、ノイズの多いテキスト記述を自動的にフィルタリングし、強化するためのいくつかの戦略を提案する。
ゼロショット3D分類ベンチマークでOpenShapeを評価し,オープンワールド認識の優れた能力を実証した。
論文 参考訳(メタデータ) (2023-05-18T07:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。