論文の概要: From Voices to Worlds: Developing an AI-Powered Framework for 3D Object Generation in Augmented Reality
- arxiv url: http://arxiv.org/abs/2503.16474v1
- Date: Tue, 04 Mar 2025 06:31:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-30 23:11:29.462521
- Title: From Voices to Worlds: Developing an AI-Powered Framework for 3D Object Generation in Augmented Reality
- Title(参考訳): 音声から世界へ:拡張現実における3Dオブジェクト生成のためのAI駆動フレームワークの開発
- Authors: Majid Behravan, Denis Gracanin,
- Abstract要約: MatrixはAugmented Reality(AR)環境でリアルタイム3Dオブジェクト生成用に設計された高度なAIベースのフレームワークである。
最先端のテキストから3D生成AIモデル,多言語音声からテキストへの翻訳,および大規模言語モデルを統合することで,音声コマンドによるシームレスなユーザインタラクションを実現する。
- 参考スコア(独自算出の注目度): 0.7388329684634598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents Matrix, an advanced AI-powered framework designed for real-time 3D object generation in Augmented Reality (AR) environments. By integrating a cutting-edge text-to-3D generative AI model, multilingual speech-to-text translation, and large language models (LLMs), the system enables seamless user interactions through spoken commands. The framework processes speech inputs, generates 3D objects, and provides object recommendations based on contextual understanding, enhancing AR experiences. A key feature of this framework is its ability to optimize 3D models by reducing mesh complexity, resulting in significantly smaller file sizes and faster processing on resource-constrained AR devices. Our approach addresses the challenges of high GPU usage, large model output sizes, and real-time system responsiveness, ensuring a smoother user experience. Moreover, the system is equipped with a pre-generated object repository, further reducing GPU load and improving efficiency. We demonstrate the practical applications of this framework in various fields such as education, design, and accessibility, and discuss future enhancements including image-to-3D conversion, environmental object detection, and multimodal support. The open-source nature of the framework promotes ongoing innovation and its utility across diverse industries.
- Abstract(参考訳): 本稿では,Augmented Reality(AR)環境におけるリアルタイム3Dオブジェクト生成のために設計された,AIを活用した高度なフレームワークであるMatrixについて述べる。
最先端のテキストから3D生成AIモデル,多言語音声からテキストへの翻訳,および大規模言語モデル(LLM)を統合することで,音声コマンドによるシームレスなユーザインタラクションを実現する。
このフレームワークは、音声入力を処理し、3Dオブジェクトを生成し、コンテキスト理解に基づいたオブジェクトレコメンデーションを提供し、AR体験を向上する。
このフレームワークの重要な特徴は、メッシュの複雑さを減らし、3Dモデルを最適化できることで、ファイルサイズが大幅に小さくなり、リソース制約のARデバイスでの処理が高速化される。
当社のアプローチでは,GPU使用率の向上,大規模モデル出力サイズ,リアルタイムシステムの応答性といった課題に対処し,ユーザエクスペリエンスの円滑化を実現している。
さらに、プリ生成されたオブジェクトレポジトリを備え、GPU負荷をさらに削減し、効率を向上する。
本稿では, 教育, 設計, アクセシビリティといった様々な分野において, このフレームワークの実践的応用を実証し, 画像から3次元変換, 環境オブジェクトの検出, マルチモーダルサポートなど, 今後の拡張について論じる。
このフレームワークのオープンソースの性質は、さまざまな産業で進行中のイノベーションと実用性を促進する。
関連論文リスト
- Text To 3D Object Generation For Scalable Room Assembly [9.275648239993703]
本稿では,スケーラブルで高品質でカスタマイズ可能な室内3Dシーンのための,合成データ生成のためのエンドツーエンドシステムを提案する。
本システムはテキストプロンプトから高忠実度3Dオブジェクトアセットを生成し,レンダリングツールを用いて事前に定義されたフロアプランに組み込む。
論文 参考訳(メタデータ) (2025-04-12T20:13:07Z) - LandMarkSystem Technical Report [4.885906902650898]
3D再構成は、自動運転、仮想現実、拡張現実、メタバースなどの応用に不可欠である。
ニューラル・ラディアンス・フィールド(NeRF)や3Dガウス・スプレイティング(3DGS)といった最近の進歩は、この分野を変えつつあるが、従来のディープラーニングフレームワークは、シーンの品質とスケールの増大に対する需要を満たすのに苦労している。
本稿では,マルチスケールなシーン再構成とレンダリングを実現するための新しい計算フレームワークであるLandMarkSystemを紹介する。
論文 参考訳(メタデータ) (2025-03-27T10:55:36Z) - Generative AI Framework for 3D Object Generation in Augmented Reality [0.0]
この論文は、最先端の生成AIモデルを統合し、拡張現実(AR)環境で3Dオブジェクトをリアルタイムに作成する。
このフレームワークは、ゲーム、教育、小売、インテリアデザインといった業界にまたがる応用を実証している。
重要な貢献は、3Dモデル作成の民主化であり、高度なAIツールを幅広い聴衆に利用できるようにする。
論文 参考訳(メタデータ) (2025-02-21T17:01:48Z) - Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation [56.862552362223425]
本稿では,多様な入力プロンプトから高品質な3次元形状とテクスチャを生成するための包括的枠組みを提案する。
フレームワークは3次元形状生成とテクスチャ生成で構成されている。
本報告では,フレームワークの改良と拡張に向けたシステムアーキテクチャ,実験結果,今後の方向性について述べる。
論文 参考訳(メタデータ) (2025-02-20T04:22:30Z) - Multimodal 3D Fusion and In-Situ Learning for Spatially Aware AI [10.335943413484815]
拡張現実における仮想世界と物理世界のシームレスな統合は、物理的な環境を意味的に「理解する」システムから恩恵を受ける。
本稿では,意味的知識と言語的知識を幾何学的表現と一体化する多モード3Dオブジェクト表現を提案する。
提案システムの有用性を,Magic Leap 2上の2つの実世界のARアプリケーションを用いて実証する:a) 自然言語を用いた物理環境における空間探索,b) 時間とともにオブジェクトの変化を追跡するインテリジェントなインベントリシステム。
論文 参考訳(メタデータ) (2024-10-06T23:25:21Z) - Articulate-Anything: Automatic Modeling of Articulated Objects via a Vision-Language Foundation Model [35.184607650708784]
Articulate-Anythingは、テキスト、画像、ビデオを含む多くの入力モダリティから、多種多様な複雑なオブジェクトの明瞭化を自動化する。
本システムでは,メッシュ検索機構を通じて既存の3Dデータセットを,反復的に提案,評価,洗練を行うアクタ・クリティカル・システムとともに活用する。
論文 参考訳(メタデータ) (2024-10-03T19:42:16Z) - Coral Model Generation from Single Images for Virtual Reality Applications [22.18438294137604]
本稿では,1つの画像から高精度な3次元サンゴモデルを生成するディープラーニングフレームワークを提案する。
このプロジェクトには、AI生成モデルをインタラクティブな"アートワーク"に変換するための説明可能なAI(XAI)が組み込まれている。
論文 参考訳(メタデータ) (2024-09-04T01:54:20Z) - VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。
マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。
3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文 参考訳(メタデータ) (2023-12-18T18:59:05Z) - Federated Multi-View Synthesizing for Metaverse [52.59476179535153]
メタバースは没入型エンターテイメント、教育、ビジネスアプリケーションを提供すると期待されている。
無線ネットワーク上のバーチャルリアリティ(VR)伝送は、データと計算集約である。
我々は,メタバースにおける無線コンテンツ配信のために,効率的な合成,記憶,通信資源を提供する,新しい多視点合成フレームワークを開発した。
論文 参考訳(メタデータ) (2023-12-18T13:51:56Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Pushing the Limits of 3D Shape Generation at Scale [65.24420181727615]
我々は、前例のない次元に拡大することで、3次元形状生成において画期的なブレークスルーを示す。
現在までに最大の3次元形状生成モデルとしてArgus-3Dが確立されている。
論文 参考訳(メタデータ) (2023-06-20T13:01:19Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。