論文の概要: Accelerating 3D Deep Learning with PyTorch3D
- arxiv url: http://arxiv.org/abs/2007.08501v1
- Date: Thu, 16 Jul 2020 17:53:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 22:58:27.303294
- Title: Accelerating 3D Deep Learning with PyTorch3D
- Title(参考訳): PyTorch3Dによる3Dディープラーニングの高速化
- Authors: Nikhila Ravi, Jeremy Reizenstein, David Novotny, Taylor Gordon,
Wan-Yen Lo, Justin Johnson, Georgia Gkioxari
- Abstract要約: 3Dへの拡張は、自動運転車、バーチャルおよび拡張現実、3Dコンテンツのオーサリング、さらには2D認識の改善など、多くの新しい応用を推し進める可能性がある。
PyTorch3Dは,3次元深層学習のためのモジュール型,効率的,微分可能な演算子ライブラリである。
メッシュとポイントクラウドの高速でモジュール化された差別化が可能で、分析バイシンセサイザーが可能である。
- 参考スコア(独自算出の注目度): 22.780262046044736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has significantly improved 2D image recognition. Extending into
3D may advance many new applications including autonomous vehicles, virtual and
augmented reality, authoring 3D content, and even improving 2D recognition.
However despite growing interest, 3D deep learning remains relatively
underexplored. We believe that some of this disparity is due to the engineering
challenges involved in 3D deep learning, such as efficiently processing
heterogeneous data and reframing graphics operations to be differentiable. We
address these challenges by introducing PyTorch3D, a library of modular,
efficient, and differentiable operators for 3D deep learning. It includes a
fast, modular differentiable renderer for meshes and point clouds, enabling
analysis-by-synthesis approaches. Compared with other differentiable renderers,
PyTorch3D is more modular and efficient, allowing users to more easily extend
it while also gracefully scaling to large meshes and images. We compare the
PyTorch3D operators and renderer with other implementations and demonstrate
significant speed and memory improvements. We also use PyTorch3D to improve the
state-of-the-art for unsupervised 3D mesh and point cloud prediction from 2D
images on ShapeNet. PyTorch3D is open-source and we hope it will help
accelerate research in 3D deep learning.
- Abstract(参考訳): ディープラーニングは2D画像認識を大幅に改善した。
3Dへの拡張は、自動運転車、バーチャルおよび拡張現実、3Dコンテンツのオーサリング、さらには2D認識の改善など、多くの新しい応用を推し進める可能性がある。
しかし、興味が高まっているにもかかわらず、3dディープラーニングは比較的未熟である。
この格差の一部は、異種データの効率的な処理やグラフィックス操作のリフレーミングなど、3dディープラーニングに関わるエンジニアリング上の課題によるものだと考えています。
PyTorch3Dは,3次元ディープラーニングのためのモジュール型,効率的,差別化可能な演算子ライブラリである。
メッシュとポイントクラウドのための高速でモジュラーな微分可能なレンダラが含まれており、分析と合成のアプローチを可能にする。
他の差別化可能なレンダラと比較して、pytorch3dはモジュール性が高く、効率が良く、ユーザが簡単に拡張できると同時に、大規模なメッシュやイメージにも優雅に拡張できる。
我々はPyTorch3D演算子とレンダラーを他の実装と比較し、大幅な速度とメモリ改善を示す。
またPyTorch3Dを使って、ShapeNet上の2D画像から教師なしの3Dメッシュとポイントクラウドの予測を改善する。
PyTorch3Dはオープンソースで、3Dディープラーニングの研究を加速したいと考えている。
関連論文リスト
- PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - Look Around and Refer: 2D Synthetic Semantics Knowledge Distillation for
3D Visual Grounding [23.672405624011873]
本稿では,点雲から合成した2次元手がかりを用いて3次元視覚ストリームを統合するモジュールを提案する。
学習した視覚表現の質を高める能力について実証的に示す。
提案したモジュールはLear Around and Refer (LAR)と呼ばれ、3つのベンチマークで最先端の3Dビジュアルグラウンド技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2022-11-25T17:12:08Z) - Can We Solve 3D Vision Tasks Starting from A 2D Vision Transformer? [111.11502241431286]
視覚変換器(ViT)は2次元画像理解タスクの解決に有効であることが証明されている。
2Dおよび3Dタスク用のViTは、これまでほとんど転送できない、非常に異なるアーキテクチャ設計を採用してきた。
本稿では,標準的な2D ViTアーキテクチャを用いて,3次元視覚世界を理解するという魅力的な約束を示す。
論文 参考訳(メタデータ) (2022-09-15T03:34:58Z) - Asymmetric 3D Context Fusion for Universal Lesion Detection [55.61873234187917]
3Dネットワークは、3Dコンテキストでは強いが、教師付き事前トレーニングがない。
既存の3Dコンテキスト融合演算子は空間対称に設計されており、畳み込みのように各2Dスライス上で同一の操作を行う。
本研究では, 異なる重みを持つ非対称な3次元コンテキスト融合演算子 (A3D) を提案し, 異なる2次元スライスから3次元コンテキストを融合させる。
論文 参考訳(メタデータ) (2021-09-17T16:25:10Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Interactive Annotation of 3D Object Geometry using 2D Scribbles [84.51514043814066]
本稿では,ポイントクラウドデータとRGB画像から3次元オブジェクト形状をアノテートする対話型フレームワークを提案する。
当社のフレームワークは,芸術的,グラフィック的専門知識のないナイーブユーザを対象としている。
論文 参考訳(メタデータ) (2020-08-24T21:51:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。