論文の概要: Transcending Dimensions using Generative AI: Real-Time 3D Model Generation in Augmented Reality
- arxiv url: http://arxiv.org/abs/2504.21033v1
- Date: Sun, 27 Apr 2025 17:19:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-10 00:13:20.88221
- Title: Transcending Dimensions using Generative AI: Real-Time 3D Model Generation in Augmented Reality
- Title(参考訳): 生成AIを用いた超越次元:拡張現実におけるリアルタイム3次元モデル生成
- Authors: Majid Behravan, Maryam Haghani, Denis Gracanin,
- Abstract要約: この研究は、生成AIと拡張現実(AR)を結合システムに組み合わせることで障壁を低くすることを目的としている。
2次元画像をAR環境の3次元表現に変換するという複雑な課題に対処する。
この研究は、特にゲーム、教育、ARベースのeコマースの応用に関係しており、専門スキルのないユーザー向けに直感的なモデル作成を提供する。
- 参考スコア(独自算出の注目度): 0.6573833167681101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional 3D modeling requires technical expertise, specialized software, and time-intensive processes, making it inaccessible for many users. Our research aims to lower these barriers by combining generative AI and augmented reality (AR) into a cohesive system that allows users to easily generate, manipulate, and interact with 3D models in real time, directly within AR environments. Utilizing cutting-edge AI models like Shap-E, we address the complex challenges of transforming 2D images into 3D representations in AR environments. Key challenges such as object isolation, handling intricate backgrounds, and achieving seamless user interaction are tackled through advanced object detection methods, such as Mask R-CNN. Evaluation results from 35 participants reveal an overall System Usability Scale (SUS) score of 69.64, with participants who engaged with AR/VR technologies more frequently rating the system significantly higher, at 80.71. This research is particularly relevant for applications in gaming, education, and AR-based e-commerce, offering intuitive, model creation for users without specialized skills.
- Abstract(参考訳): 従来の3Dモデリングには技術的専門知識、専門的なソフトウェア、時間集約的なプロセスが必要で、多くのユーザーにとって利用できない。
我々の研究は、生成的AIと拡張現実(AR)を結合システムに組み合わせることで、ユーザーがリアルタイムで3Dモデルを生成し、操作し、AR環境内で直接操作できるようにすることによって、これらの障壁を低くすることを目的としている。
Shap-Eのような最先端のAIモデルを利用することで、2D画像をAR環境で3D表現に変換するという複雑な課題に対処する。
オブジェクト分離、複雑なバックグラウンドの処理、シームレスなユーザインタラクションの実現といった重要な課題は、Mask R-CNNのような高度なオブジェクト検出方法によって解決される。
35人の被験者による評価結果から、システムユーザビリティ尺度(SUS)の総合スコアは69.64で、AR/VR技術に携わる参加者は80.71でシステムをかなり高く評価している。
この研究は、ゲーム、教育、そしてARベースのeコマースの応用に特に関係しており、専門スキルのないユーザーのための直感的なモデル作成を提供する。
関連論文リスト
- Generative AI Framework for 3D Object Generation in Augmented Reality [0.0]
この論文は、最先端の生成AIモデルを統合し、拡張現実(AR)環境で3Dオブジェクトをリアルタイムに作成する。
このフレームワークは、ゲーム、教育、小売、インテリアデザインといった業界にまたがる応用を実証している。
重要な貢献は、3Dモデル作成の民主化であり、高度なAIツールを幅広い聴衆に利用できるようにする。
論文 参考訳(メタデータ) (2025-02-21T17:01:48Z) - Articulate-Anything: Automatic Modeling of Articulated Objects via a Vision-Language Foundation Model [35.184607650708784]
Articulate-Anythingは、テキスト、画像、ビデオを含む多くの入力モダリティから、多種多様な複雑なオブジェクトの明瞭化を自動化する。
本システムでは,メッシュ検索機構を通じて既存の3Dデータセットを,反復的に提案,評価,洗練を行うアクタ・クリティカル・システムとともに活用する。
論文 参考訳(メタデータ) (2024-10-03T19:42:16Z) - Coral Model Generation from Single Images for Virtual Reality Applications [22.18438294137604]
本稿では,1つの画像から高精度な3次元サンゴモデルを生成するディープラーニングフレームワークを提案する。
このプロジェクトには、AI生成モデルをインタラクティブな"アートワーク"に変換するための説明可能なAI(XAI)が組み込まれている。
論文 参考訳(メタデータ) (2024-09-04T01:54:20Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Atlas3D: Physically Constrained Self-Supporting Text-to-3D for Simulation and Fabrication [50.541882834405946]
我々は,テキストから3Dへの自動的実装であるAtlas3Dを紹介する。
提案手法は,新しい微分可能シミュレーションに基づく損失関数と,物理的にインスパイアされた正規化を組み合わせたものである。
我々は、Atlas3Dの有効性を広範囲な生成タスクを通して検証し、シミュレーションと実環境の両方で結果の3Dモデルを検証する。
論文 参考訳(メタデータ) (2024-05-28T18:33:18Z) - 3D Hand Mesh Recovery from Monocular RGB in Camera Space [3.0453197258042213]
本研究では,ルート相対格子とルート回復タスクの並列処理を行うネットワークモデルを提案する。
暗黙的な学習手法を2次元ヒートマップに適用し、異なるサブタスク間の2次元キューの互換性を向上させる。
提案モデルは最先端のモデルに匹敵する。
論文 参考訳(メタデータ) (2024-05-12T05:36:37Z) - Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation [66.3814684757376]
本研究は,RGB 6Dのカテゴリレベルでのポーズ推定を向上するための拡散モデルに基づく新規ビュー合成器の実用性を示す最初の研究であるZero123-6Dを示す。
本手法は,データ要求の低減,ゼロショットカテゴリレベルの6Dポーズ推定タスクにおける深度情報の必要性の除去,およびCO3Dデータセットの実験により定量的に示された性能の向上を示す。
論文 参考訳(メタデータ) (2024-03-21T10:38:18Z) - ArK: Augmented Reality with Knowledge Interactive Emergent Ability [115.72679420999535]
基礎モデルから新しいドメインへの知識記憶の伝達を学習する無限エージェントを開発する。
私たちのアプローチの核心は、Augmented Reality with Knowledge Inference Interaction (ArK)と呼ばれる新しいメカニズムである。
我々のArKアプローチは,大規模な基礎モデルと組み合わせることで,生成された2D/3Dシーンの品質を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-05-01T17:57:01Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - A Markerless Deep Learning-based 6 Degrees of Freedom PoseEstimation for
with Mobile Robots using RGB Data [3.4806267677524896]
本稿では,拡張現実デバイス上でリアルタイムな3Dオブジェクトローカライゼーションを実現するために,アートニューラルネットワークの状態をデプロイする手法を提案する。
本研究では,2次元入力のみを用いて物体の3次元ポーズを高速かつ正確に抽出する高速な2次元検出手法に着目する。
2D画像の6Dアノテーションとして,私たちの知る限り,最初のオープンソースツールであるアノテーションツールを開発した。
論文 参考訳(メタデータ) (2020-01-16T09:13:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。