論文の概要: OpenDlign: Enhancing Open-World 3D Learning with Depth-Aligned Images
- arxiv url: http://arxiv.org/abs/2404.16538v2
- Date: Mon, 24 Jun 2024 10:21:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 01:02:45.376949
- Title: OpenDlign: Enhancing Open-World 3D Learning with Depth-Aligned Images
- Title(参考訳): OpenDlign:depth-aligned Imagesによるオープンワールド3D学習の強化
- Authors: Ye Mao, Junpeng Jing, Krystian Mikolajczyk,
- Abstract要約: マルチモーダルアライメントのための奥行き整合画像を用いたオープンワールド3DモデルOpenDlignを提案する。
OpenDlignは、600万のパラメータを微調整するだけで、多様な3Dタスクで高いゼロショットと少数ショットのパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 17.344430840048094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent open-world 3D representation learning methods using Vision-Language Models (VLMs) to align 3D data with image-text information have shown superior 3D zero-shot performance. However, CAD-rendered images for this alignment often lack realism and texture variation, compromising alignment robustness. Moreover, the volume discrepancy between 3D and 2D pretraining datasets highlights the need for effective strategies to transfer the representational abilities of VLMs to 3D learning. In this paper, we present OpenDlign, a novel open-world 3D model using depth-aligned images generated from a diffusion model for robust multimodal alignment. These images exhibit greater texture diversity than CAD renderings due to the stochastic nature of the diffusion model. By refining the depth map projection pipeline and designing depth-specific prompts, OpenDlign leverages rich knowledge in pre-trained VLM for 3D representation learning with streamlined fine-tuning. Our experiments show that OpenDlign achieves high zero-shot and few-shot performance on diverse 3D tasks, despite only fine-tuning 6 million parameters on a limited ShapeNet dataset. In zero-shot classification, OpenDlign surpasses previous models by 8.0% on ModelNet40 and 16.4% on OmniObject3D. Additionally, using depth-aligned images for multimodal alignment consistently enhances the performance of other state-of-the-art models.
- Abstract(参考訳): 視覚言語モデル(VLM)を用いた最近のオープンワールド3D表現学習手法は,画像テキスト情報と3Dデータを整合させる手法として,より優れた3Dゼロショット性能を示している。
しかし、このアライメントのためのCADレンダリング画像は、しばしばリアリズムやテクスチャの変化を欠き、アライメントの堅牢さを損なう。
さらに、3Dと2D事前学習データセットのボリューム差は、VLMの表現能力を3D学習に移行するための効果的な戦略の必要性を強調している。
本稿では,多モードアライメントのための拡散モデルから生成された奥行きアライメント画像を用いたオープンワールド3DモデルOpenDlignを提案する。
これらの画像は拡散モデルの確率的性質によりCADレンダリングよりも高いテクスチャ多様性を示す。
OpenDlignは、深度マッププロジェクションパイプラインを洗練し、深度固有のプロンプトを設計することで、3D表現学習のために訓練済みのVLMの豊富な知識を活用している。
実験の結果,OpenDlignは限られたShapeNetデータセット上で600万のパラメータのみを微調整したにもかかわらず,多様な3Dタスクにおいて高いゼロショットと少数ショットのパフォーマンスを実現していることがわかった。
ゼロショット分類では、OpenDlignはModelNet40で8.0%、OmniObject3Dで16.4%を上回っている。
さらに、マルチモーダルアライメントのための奥行きアライメント画像を使用することで、他の最先端モデルの性能が一貫して向上する。
関連論文リスト
- Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models [20.084928490309313]
本稿では,事前学習ビデオ拡散モデルを用いたスケーラブルな3次元生成モデル構築手法を提案する。
微調整により多視点生成能力を解放することにより、大規模な合成多視点データセットを生成し、フィードフォワード3D生成モデルを訓練する。
提案したモデルであるVFusion3Dは、ほぼ3Mの合成マルチビューデータに基づいて訓練され、単一の画像から数秒で3Dアセットを生成することができる。
論文 参考訳(メタデータ) (2024-03-18T17:59:12Z) - LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation [73.36690511083894]
本稿では,LN3Diffと呼ばれる新しいフレームワークを導入し,統一された3次元拡散パイプラインに対処する。
提案手法では,3次元アーキテクチャと変分オートエンコーダを用いて,入力画像を構造化されたコンパクトな3次元潜在空間に符号化する。
3次元生成のためのShapeNetの最先端性能を実現し,モノクロ3次元再構成と条件付き3次元生成において優れた性能を示す。
論文 参考訳(メタデータ) (2024-03-18T17:54:34Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - OpenShape: Scaling Up 3D Shape Representation Towards Open-World
Understanding [53.21204584976076]
我々は,テキスト,画像,点雲のマルチモーダルな共同表現を学習するOpenShapeを紹介する。
複数の3Dデータセットをアンサンブルすることで、トレーニングデータをスケールアップし、ノイズの多いテキスト記述を自動的にフィルタリングし、強化するためのいくつかの戦略を提案する。
ゼロショット3D分類ベンチマークでOpenShapeを評価し,オープンワールド認識の優れた能力を実証した。
論文 参考訳(メタデータ) (2023-05-18T07:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。