論文の概要: OpenDlign: Enhancing Open-World 3D Learning with Depth-Aligned Images
- arxiv url: http://arxiv.org/abs/2404.16538v1
- Date: Thu, 25 Apr 2024 11:53:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 13:49:56.915984
- Title: OpenDlign: Enhancing Open-World 3D Learning with Depth-Aligned Images
- Title(参考訳): OpenDlign:depth-aligned Imagesによるオープンワールド3D学習の強化
- Authors: Ye Mao, Junpeng Jing, Krystian Mikolajczyk,
- Abstract要約: OpenDlignはオープンワールドの3D表現を学ぶための新しいフレームワークだ。
これは、点雲投影深度マップから生成された深度に整合した画像を利用する。
既存のベンチマークでは、ゼロショットと少数ショットの3Dタスクで大幅に上回っている。
- 参考スコア(独自算出の注目度): 17.344430840048094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Vision and Language Models (VLMs) have improved open-world 3D representation, facilitating 3D zero-shot capability in unseen categories. Existing open-world methods pre-train an extra 3D encoder to align features from 3D data (e.g., depth maps or point clouds) with CAD-rendered images and corresponding texts. However, the limited color and texture variations in CAD images can compromise the alignment robustness. Furthermore, the volume discrepancy between pre-training datasets of the 3D encoder and VLM leads to sub-optimal 2D to 3D knowledge transfer. To overcome these issues, we propose OpenDlign, a novel framework for learning open-world 3D representations, that leverages depth-aligned images generated from point cloud-projected depth maps. Unlike CAD-rendered images, our generated images provide rich, realistic color and texture diversity while preserving geometric and semantic consistency with the depth maps. OpenDlign also optimizes depth map projection and integrates depth-specific text prompts, improving 2D VLM knowledge adaptation for 3D learning efficient fine-tuning. Experimental results show that OpenDlign significantly outperforms existing benchmarks in zero-shot and few-shot 3D tasks, exceeding prior scores by 8.0% on ModelNet40 and 16.4% on OmniObject3D with just 6 million tuned parameters. Moreover, integrating generated depth-aligned images into existing 3D learning pipelines consistently improves their performance.
- Abstract(参考訳): ビジョンと言語モデル(VLM)の最近の進歩は、オープンワールドの3D表現を改善し、目に見えないカテゴリで3Dゼロショット機能を促進する。
既存のオープンワールドメソッドは、3Dエンコーダを事前トレーニングして、3Dデータ(例えば、深度マップや点雲)からCADレンダリングされた画像と対応するテキストをアライメントする。
しかし、CAD画像における色やテクスチャの変化は、アライメントの堅牢性を損なう可能性がある。
さらに、3DエンコーダとVLMの事前学習データセットのボリューム差は、最適2Dから3Dの知識伝達につながる。
これらの課題を克服するために,オープンワールドの3D表現を学習するための新しいフレームワークであるOpenDlignを提案する。
CADレンダリング画像とは異なり、生成した画像は、深度マップとの幾何学的・意味的整合性を保ちながら、リッチでリアルな色とテクスチャの多様性を提供する。
OpenDlignはまた、深度マップの投影を最適化し、深度固有のテキストプロンプトを統合し、3D学習効率の良い微調整のための2D VLM知識適応を改善している。
実験の結果、OpenDlignはゼロショットと少数ショットの3Dタスクで既存のベンチマークを著しく上回り、ModelNet40では8.0%、OmniObject3Dでは16.4%、調整されたパラメータはわずか600万である。
さらに、既存の3D学習パイプラインに生成された深度に整合したイメージを統合することにより、パフォーマンスが一貫して向上する。
関連論文リスト
- Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - Lightweight integration of 3D features to improve 2D image segmentation [1.3799488979862027]
画像のセグメンテーションは3次元の基底構造を必要とせずに3次元の幾何学的情報から恩恵を受けることができることを示す。
提案手法は,多くの2次元セグメンテーションネットワークに適用でき,性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T08:22:55Z) - Learning Multi-View Aggregation In the Wild for Large-Scale 3D Semantic
Segmentation [3.5939555573102853]
近年の3次元セマンティックセグメンテーションの研究は、各モータリティを専用ネットワークで処理することで、画像と点雲の相乗効果を活用することを提案する。
任意の位置で撮影された画像から特徴をマージするために,3Dポイントの視聴条件を利用したエンドツーエンドのトレーニング可能な多視点アグリゲーションモデルを提案する。
本手法は,標準的な2Dネットワークと3Dネットワークを組み合わせることで,カラー化された点群とハイブリッドな2D/3Dネットワーク上での3Dモデルの性能を向上する。
論文 参考訳(メタデータ) (2022-04-15T17:10:48Z) - 3D-Aware Indoor Scene Synthesis with Depth Priors [62.82867334012399]
既存の手法では、室内配置や内部の物体の多様さのため、屋内シーンのモデル化に失敗する。
室内のシーンは共通な内在構造を持たず、2次元画像のみを用いるだけでは3次元形状のモデルが適切にガイドできない。
論文 参考訳(メタデータ) (2022-02-17T09:54:29Z) - Deep Hybrid Self-Prior for Full 3D Mesh Generation [57.78562932397173]
本稿では,深部ニューラルネットワークにおける2D-3Dのハイブリッドな自己優先性を利用して,幾何学的品質を著しく向上する手法を提案する。
特に,まず3次元自己優先型3次元畳み込みニューラルネットワークを用いて初期メッシュを生成し,次いで2次元紫外線アトラスに3次元情報と色情報をエンコードする。
本手法は,スパース入力から高品質な3次元テクスチャメッシュモデルを復元し,テクスチャ品質とテクスチャ品質の両面で最先端の手法より優れている。
論文 参考訳(メタデータ) (2021-08-18T07:44:21Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Improved Modeling of 3D Shapes with Multi-view Depth Maps [48.8309897766904]
CNNを用いて3次元形状をモデル化するための汎用フレームワークを提案する。
オブジェクトの1つの深度画像だけで、3Dオブジェクトの高密度な多視点深度マップ表現を出力できる。
論文 参考訳(メタデータ) (2020-09-07T17:58:27Z) - Accelerating 3D Deep Learning with PyTorch3D [22.780262046044736]
3Dへの拡張は、自動運転車、バーチャルおよび拡張現実、3Dコンテンツのオーサリング、さらには2D認識の改善など、多くの新しい応用を推し進める可能性がある。
PyTorch3Dは,3次元深層学習のためのモジュール型,効率的,微分可能な演算子ライブラリである。
メッシュとポイントクラウドの高速でモジュール化された差別化が可能で、分析バイシンセサイザーが可能である。
論文 参考訳(メタデータ) (2020-07-16T17:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。