論文の概要: Generative AI Framework for 3D Object Generation in Augmented Reality
- arxiv url: http://arxiv.org/abs/2502.15869v1
- Date: Fri, 21 Feb 2025 17:01:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:56:27.791784
- Title: Generative AI Framework for 3D Object Generation in Augmented Reality
- Title(参考訳): 拡張現実における3次元オブジェクト生成のための生成AIフレームワーク
- Authors: Majid Behravan,
- Abstract要約: この論文は、最先端の生成AIモデルを統合し、拡張現実(AR)環境で3Dオブジェクトをリアルタイムに作成する。
このフレームワークは、ゲーム、教育、小売、インテリアデザインといった業界にまたがる応用を実証している。
重要な貢献は、3Dモデル作成の民主化であり、高度なAIツールを幅広い聴衆に利用できるようにする。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This thesis presents a framework that integrates state-of-the-art generative AI models for real-time creation of three-dimensional (3D) objects in augmented reality (AR) environments. The primary goal is to convert diverse inputs, such as images and speech, into accurate 3D models, enhancing user interaction and immersion. Key components include advanced object detection algorithms, user-friendly interaction techniques, and robust AI models like Shap-E for 3D generation. Leveraging Vision Language Models (VLMs) and Large Language Models (LLMs), the system captures spatial details from images and processes textual information to generate comprehensive 3D objects, seamlessly integrating virtual objects into real-world environments. The framework demonstrates applications across industries such as gaming, education, retail, and interior design. It allows players to create personalized in-game assets, customers to see products in their environments before purchase, and designers to convert real-world objects into 3D models for real-time visualization. A significant contribution is democratizing 3D model creation, making advanced AI tools accessible to a broader audience, fostering creativity and innovation. The framework addresses challenges like handling multilingual inputs, diverse visual data, and complex environments, improving object detection and model generation accuracy, as well as loading 3D models in AR space in real-time. In conclusion, this thesis integrates generative AI and AR for efficient 3D model generation, enhancing accessibility and paving the way for innovative applications and improved user interactions in AR environments.
- Abstract(参考訳): この論文では、拡張現実(AR)環境で3Dオブジェクトをリアルタイムに作成するために、最先端のAIモデルを統合したフレームワークを提示している。
第一の目的は、画像や音声などの多様な入力を正確な3Dモデルに変換し、ユーザインタラクションと没入性を高めることである。
主なコンポーネントは、高度なオブジェクト検出アルゴリズム、ユーザフレンドリなインタラクション技術、そして3D生成のためのShap-Eのような堅牢なAIモデルである。
VLM(Large Language Models)とLLM(Large Language Models)を活用することで、画像から空間的詳細をキャプチャし、テキスト情報を処理し、包括的な3Dオブジェクトを生成し、仮想オブジェクトを現実の環境にシームレスに統合する。
このフレームワークは、ゲーム、教育、小売、インテリアデザインといった業界にまたがる応用を実証している。
プレイヤーはゲーム内でパーソナライズされたアセットを作成でき、顧客は購入前に自分の環境で製品を見ることができ、デザイナーは現実世界のオブジェクトを3Dモデルに変換してリアルタイムで視覚化することができる。
重要な貢献は、3Dモデルの作成を民主化し、高度なAIツールを幅広いオーディエンスに公開し、クリエイティビティとイノベーションを促進することである。
このフレームワークは、多言語入力、多様な視覚データ、複雑な環境の処理、オブジェクトの検出とモデル生成精度の改善、AR空間での3Dモデルのリアルタイムロードといった課題に対処する。
結論として、この論文は、効率的な3Dモデル生成のための生成AIとARを統合し、アクセシビリティを高め、革新的なアプリケーションへの道を開き、AR環境におけるユーザインタラクションを改善します。
関連論文リスト
- CLAS: A Machine Learning Enhanced Framework for Exploring Large 3D Design Datasets [1.281023989926633]
本稿では3次元オブジェクトの完全自動検索を可能にする機械学習(ML)拡張フレームワークCLASを提案する。
概念実証として,椅子の6,778個の3Dオブジェクトを検索するWebユーザインタフェース(UI)を備えた検索システムを作成した。
クローズセット検索では,平均相反位(MRR)が0.58,トップ1が42.27%,トップ10が89.64%となる。
論文 参考訳(メタデータ) (2024-12-04T03:29:56Z) - Articulate-Anything: Automatic Modeling of Articulated Objects via a Vision-Language Foundation Model [35.184607650708784]
Articulate-Anythingは、テキスト、画像、ビデオを含む多くの入力モダリティから、多種多様な複雑なオブジェクトの明瞭化を自動化する。
本システムでは,メッシュ検索機構を通じて既存の3Dデータセットを,反復的に提案,評価,洗練を行うアクタ・クリティカル・システムとともに活用する。
論文 参考訳(メタデータ) (2024-10-03T19:42:16Z) - Coral Model Generation from Single Images for Virtual Reality Applications [22.18438294137604]
本稿では,1つの画像から高精度な3次元サンゴモデルを生成するディープラーニングフレームワークを提案する。
このプロジェクトには、AI生成モデルをインタラクティブな"アートワーク"に変換するための説明可能なAI(XAI)が組み込まれている。
論文 参考訳(メタデータ) (2024-09-04T01:54:20Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - Large-Vocabulary 3D Diffusion Model with Transformer [57.076986347047]
本稿では,1つの生成モデルを用いて実世界の3Dオブジェクトの大規模カテゴリを合成するための拡散型フィードフォワードフレームワークを提案する。
本稿では,三面体を用いた3次元拡散モデル(TransFormer, DiffTF)を提案する。
ShapeNetとOmniObject3Dの実験は、単一のDiffTFモデルが最先端の大語彙3Dオブジェクト生成性能を達成することを確実に実証している。
論文 参考訳(メタデータ) (2023-09-14T17:59:53Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Pushing the Limits of 3D Shape Generation at Scale [65.24420181727615]
我々は、前例のない次元に拡大することで、3次元形状生成において画期的なブレークスルーを示す。
現在までに最大の3次元形状生成モデルとしてArgus-3Dが確立されている。
論文 参考訳(メタデータ) (2023-06-20T13:01:19Z) - OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic
Perception, Reconstruction and Generation [107.71752592196138]
OmniObject3Dを提案する。OmniObject3Dは,大規模で高品質な3Dオブジェクトを持つ大語彙の3Dオブジェクトデータセットである。
190のカテゴリーで6,000のスキャン対象からなり、一般的な2Dデータセットと共通クラスを共有する。
それぞれの3Dオブジェクトは、2Dと3Dの両方のセンサーでキャプチャされ、テクスチャメッシュ、ポイントクラウド、マルチビューレンダリング画像、複数の実写ビデオを提供する。
論文 参考訳(メタデータ) (2023-01-18T18:14:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。