論文の概要: Scalable Cloud-Native Pipeline for Efficient 3D Model Reconstruction from Monocular Smartphone Images
- arxiv url: http://arxiv.org/abs/2409.19322v1
- Date: Sat, 28 Sep 2024 11:15:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 23:58:48.303038
- Title: Scalable Cloud-Native Pipeline for Efficient 3D Model Reconstruction from Monocular Smartphone Images
- Title(参考訳): 単眼スマートフォン画像からの高能率3次元モデル再構成のためのスケーラブルクラウド負パイプライン
- Authors: Potito Aghilar, Vito Walter Anelli, Michelantonio Trizio, Tommaso Di Noia,
- Abstract要約: スマートフォンカメラで撮影したモノクロ2D画像から3Dモデルを自動的に再構築する,クラウドネイティブなパイプラインを提案する。
我々のソリューションは、組込み材料とテクスチャを備えた再利用可能な3Dモデルを作成し、外部ソフトウェアや3Dエンジンでエクスポート可能でカスタマイズできる。
- 参考スコア(独自算出の注目度): 9.61065600471628
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In recent years, 3D models have gained popularity in various fields, including entertainment, manufacturing, and simulation. However, manually creating these models can be a time-consuming and resource-intensive process, making it impractical for large-scale industrial applications. To address this issue, researchers are exploiting Artificial Intelligence and Machine Learning algorithms to automatically generate 3D models effortlessly. In this paper, we present a novel cloud-native pipeline that can automatically reconstruct 3D models from monocular 2D images captured using a smartphone camera. Our goal is to provide an efficient and easily-adoptable solution that meets the Industry 4.0 standards for creating a Digital Twin model, which could enhance personnel expertise through accelerated training. We leverage machine learning models developed by NVIDIA Research Labs alongside a custom-designed pose recorder with a unique pose compensation component based on the ARCore framework by Google. Our solution produces a reusable 3D model, with embedded materials and textures, exportable and customizable in any external 3D modelling software or 3D engine. Furthermore, the whole workflow is implemented by adopting the microservices architecture standard, enabling each component of the pipeline to operate as a standalone replaceable module.
- Abstract(参考訳): 近年、エンターテイメント、製造、シミュレーションなど様々な分野で3Dモデルの人気が高まっている。
しかし、これらのモデルを手動で作成することは、時間と資源集約的なプロセスであり、大規模産業アプリケーションには実用的ではない。
この問題に対処するため、研究者たちは人工知能と機械学習のアルゴリズムを利用して、自動的に3Dモデルを生成する。
本稿では,スマートフォンカメラを用いたモノクロ2D画像から3Dモデルを自動的に再構成する,クラウドネイティブなパイプラインを提案する。
我々の目標は、Digital Twinモデルを作成するための業界標準4.0を満たす、効率的で容易に適応可能なソリューションを提供することです。
NVIDIA Research Labsが開発した機械学習モデルと、GoogleのARCoreフレームワークに基づいたユニークなポーズ補償コンポーネントを備えたカスタムデザインのポーズレコーダを活用しています。
我々のソリューションは, 組込み材料とテクスチャを備えた再利用可能な3Dモデルを作成し, 外部の3Dモデリングソフトウェアや3Dエンジンでエクスポート可能かつカスタマイズ可能である。
さらに、ワークフロー全体はマイクロサービスアーキテクチャ標準を採用して実装されており、パイプラインの各コンポーネントがスタンドアロンの置き換え可能なモジュールとして動作できるようにする。
関連論文リスト
- Photogrammetry for Digital Twinning Industry 4.0 (I4) Systems [0.43127334486935653]
デジタルツイン(Digital Twins、DT)は、物理プロセスの振る舞いを再現するためにソフトウェアシステムを活用する変換技術である。
本稿では,「物理過程」の正確な視覚表現を実現するために,フォトグラムメトリーと3次元走査技術の利用を探求することを目的とする。
その結果, コンシューマグレードデバイスを用いたフォトグラメトリは, スマート製造のためのDTを作成する上で, 効率的かつコスト効率のよいアプローチであることが示唆された。
論文 参考訳(メタデータ) (2024-07-12T04:51:19Z) - Atlas3D: Physically Constrained Self-Supporting Text-to-3D for Simulation and Fabrication [50.541882834405946]
我々は,テキストから3Dへの自動的実装であるAtlas3Dを紹介する。
提案手法は,新しい微分可能シミュレーションに基づく損失関数と,物理的にインスパイアされた正規化を組み合わせたものである。
我々は、Atlas3Dの有効性を広範囲な生成タスクを通して検証し、シミュレーションと実環境の両方で結果の3Dモデルを検証する。
論文 参考訳(メタデータ) (2024-05-28T18:33:18Z) - InstantMesh: Efficient 3D Mesh Generation from a Single Image with Sparse-view Large Reconstruction Models [66.83681825842135]
InstantMeshは、単一のイメージからインスタント3Dメッシュを生成するためのフィードフォワードフレームワークである。
最新世代の品質とトレーニングのスケーラビリティが特徴だ。
InstantMeshのコード、重み、デモをすべてリリースし、3D生成AIのコミュニティに多大な貢献ができることを意図しています。
論文 参考訳(メタデータ) (2024-04-10T17:48:37Z) - VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models [20.084928490309313]
本稿では,事前学習ビデオ拡散モデルを用いたスケーラブルな3次元生成モデル構築手法を提案する。
微調整により多視点生成能力を解放することにより、大規模な合成多視点データセットを生成し、フィードフォワード3D生成モデルを訓練する。
提案したモデルであるVFusion3Dは、ほぼ3Mの合成マルチビューデータに基づいて訓練され、単一の画像から数秒で3Dアセットを生成することができる。
論文 参考訳(メタデータ) (2024-03-18T17:59:12Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - GET3D--: Learning GET3D from Unconstrained Image Collections [27.470617383305726]
本研究では2次元画像から直接テクスチャ化された3次元形状を生成できるGET3D-を提案する。
GET3D--は3D形状のジェネレータと、カメラ上の6D外部変化をキャプチャする学習可能なカメラサンプリング器を備える。
論文 参考訳(メタデータ) (2023-07-27T15:00:54Z) - GINA-3D: Learning to Generate Implicit Neural Assets in the Wild [38.51391650845503]
GINA-3Dは、カメラとLiDARセンサーの実際の運転データを使用して、多様な車や歩行者の3D暗黙的な神経資産を作成する生成モデルである。
車両と歩行者の1.2万枚以上の画像を含む大規模オブジェクト中心データセットを構築した。
生成した画像とジオメトリの両面において、品質と多様性の最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2023-04-04T23:41:20Z) - GET3D: A Generative Model of High Quality 3D Textured Shapes Learned
from Images [72.15855070133425]
本稿では,複雑なトポロジ,リッチな幾何学的ディテール,高忠実度テクスチャを備えたExplicit Textured 3Dメッシュを直接生成する生成モデルであるGET3Dを紹介する。
GET3Dは、車、椅子、動物、バイク、人間キャラクターから建物まで、高品質な3Dテクスチャメッシュを生成することができる。
論文 参考訳(メタデータ) (2022-09-22T17:16:19Z) - BANMo: Building Animatable 3D Neural Models from Many Casual Videos [135.64291166057373]
本稿では,特殊なセンサや事前定義されたテンプレート形状を必要としないBANMoを提案する。
Banmoは、多くのモノクロカジュアルビデオから高忠実な3Dモデルを、差別化可能なレンダリングフレームワークで構築する。
実際のデータセットと合成データセットでは、BANMoは人間や動物の以前の研究よりも高忠実な3D再構成を示している。
論文 参考訳(メタデータ) (2021-12-23T18:30:31Z) - Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data [77.34069717612493]
本稿では,100fpsの単眼手形状とポーズ推定の新たな手法を提案する。
これは、利用可能なハンドトレーニングデータのソースをすべて活用できるように設計された、新しい学習ベースのアーキテクチャによって実現されている。
3次元手関節検出モジュールと逆キネマティクスモジュールを備えており、3次元手関節位置だけでなく、1つのフィードフォワードパスでそれらを関節回転にマッピングする。
論文 参考訳(メタデータ) (2020-03-21T03:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。