論文の概要: VRCopilot: Authoring 3D Layouts with Generative AI Models in VR
- arxiv url: http://arxiv.org/abs/2408.09382v1
- Date: Sun, 18 Aug 2024 06:45:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 20:59:59.074067
- Title: VRCopilot: Authoring 3D Layouts with Generative AI Models in VR
- Title(参考訳): VRCopilot:VRで生成するAIモデルで3Dレイアウトを作成
- Authors: Lei Zhang, Jin Pan, Jacob Gettig, Steve Oney, Anhong Guo,
- Abstract要約: 生成AIの能力が流体相互作用、ユーザエージェンシー、クリエイティビティをサポートするためにどのように使用できるのかは不明だ。
本稿では,事前学習した生成AIモデルを没入型足場に統合する混合開始システムを提案する。
- 参考スコア(独自算出の注目度): 17.717428441983305
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Immersive authoring provides an intuitive medium for users to create 3D scenes via direct manipulation in Virtual Reality (VR). Recent advances in generative AI have enabled the automatic creation of realistic 3D layouts. However, it is unclear how capabilities of generative AI can be used in immersive authoring to support fluid interactions, user agency, and creativity. We introduce VRCopilot, a mixed-initiative system that integrates pre-trained generative AI models into immersive authoring to facilitate human-AI co-creation in VR. VRCopilot presents multimodal interactions to support rapid prototyping and iterations with AI, and intermediate representations such as wireframes to augment user controllability over the created content. Through a series of user studies, we evaluated the potential and challenges in manual, scaffolded, and automatic creation in immersive authoring. We found that scaffolded creation using wireframes enhanced the user agency compared to automatic creation. We also found that manual creation via multimodal specification offers the highest sense of creativity and agency.
- Abstract(参考訳): Immersiveのオーサリングは、VR(Virtual Reality)を直接操作することで、ユーザが3Dシーンを作成するための直感的な媒体を提供する。
生成AIの最近の進歩により、現実的な3Dレイアウトの自動作成が可能になった。
しかし, 流体相互作用, ユーザエージェンシー, 創造性をサポートするために, 没入型オーサリングにおいて, 生成AIの能力がどの程度有効かは明らかでない。
我々は、VRにおける人間とAIの共創を促進するために、事前学習された生成AIモデルを没入型オーサリングに統合する混合開始システムであるVRCopilotを紹介する。
VRCopilotは、AIによる迅速なプロトタイピングとイテレーションをサポートするためのマルチモーダルインタラクションと、生成されたコンテンツのユーザコントロール性を向上するワイヤフレームなどの中間表現を提供する。
一連のユーザスタディを通じて,没入型オーサリングにおける手動,足場,自動生成の可能性と課題を評価した。
ワイヤーフレームを用いた足場生成により,自動生成よりもユーザエージェンシーが向上することが判明した。
また、マルチモーダル仕様による手作業による作成が、創造性とエージェンシーの最高の感覚を提供することもわかりました。
関連論文リスト
- Social Conjuring: Multi-User Runtime Collaboration with AI in Building Virtual 3D Worlds [3.5152339192019113]
Social Conjurerは、AIによる動的3Dシーンの共同作成のためのフレームワークである。
本稿では,AIモデルを3次元コンテンツ生成に組み込んだヒューマン中心インタフェースの設計における意味について述べる。
論文 参考訳(メタデータ) (2024-09-30T23:02:51Z) - Scalable Cloud-Native Pipeline for Efficient 3D Model Reconstruction from Monocular Smartphone Images [9.61065600471628]
スマートフォンカメラで撮影したモノクロ2D画像から3Dモデルを自動的に再構築する,クラウドネイティブなパイプラインを提案する。
我々のソリューションは、組込み材料とテクスチャを備えた再利用可能な3Dモデルを作成し、外部ソフトウェアや3Dエンジンでエクスポート可能でカスタマイズできる。
論文 参考訳(メタデータ) (2024-09-28T11:15:26Z) - Coral Model Generation from Single Images for Virtual Reality Applications [22.18438294137604]
本稿では,1つの画像から高精度な3次元サンゴモデルを生成するディープラーニングフレームワークを提案する。
このプロジェクトには、AI生成モデルをインタラクティブな"アートワーク"に変換するための説明可能なAI(XAI)が組み込まれている。
論文 参考訳(メタデータ) (2024-09-04T01:54:20Z) - OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving [62.54220021308464]
自律運転のための3次元世界開発をシミュレートするために,拡散型4次元占有率生成モデルOccSoraを提案する。
OccSoraは、正確な3Dレイアウトと時間的一貫性を備えた16sビデオを生成し、運転シーンの空間的および時間的分布を理解する能力を示す。
論文 参考訳(メタデータ) (2024-05-30T17:59:42Z) - Shaping Realities: Enhancing 3D Generative AI with Fabrication Constraints [36.65470465480772]
ジェネレーティブAIツールは、ユーザーがテキストやイメージを入力として新しいモデルを操作したり作成したりできる3Dモデリングにおいて、より普及しつつある。
これらの手法は, 3Dモデルの美的品質に焦点を合わせ, ユーザが提供するプロンプトに類似するように仕上げる。
製造を意図した3Dモデルを作成する場合、デザイナーは3Dモデルの美的特性を、その物理的特性とトレードオフする必要がある。
論文 参考訳(メタデータ) (2024-04-15T21:22:57Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - EgoGen: An Egocentric Synthetic Data Generator [53.32942235801499]
EgoGenは新しい合成データジェネレータで、エゴセントリックな知覚タスクのための正確でリッチな地上訓練データを生成することができる。
EgoGenの中心となるのは、仮想人間の自我中心の視覚入力を直接利用して3D環境を感知する、新しい人間のモーション合成モデルである。
我々は、ヘッドマウントカメラのマッピングとローカライゼーション、エゴセントリックカメラトラッキング、エゴセントリックビューからのヒューマンメッシュリカバリの3つのタスクで、EgoGenの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-16T18:55:22Z) - Beyond Reality: The Pivotal Role of Generative AI in the Metaverse [98.1561456565877]
本稿では、生成型AI技術がMetaverseをどう形成しているかを包括的に調査する。
我々は、AI生成文字による会話インタフェースを強化しているChatGPTやGPT-3といったテキスト生成モデルの応用を探求する。
また、現実的な仮想オブジェクトを作成する上で、Point-EやLumimithmicのような3Dモデル生成技術の可能性についても検討する。
論文 参考訳(メタデータ) (2023-07-28T05:44:20Z) - HUM3DIL: Semi-supervised Multi-modal 3D Human Pose Estimation for
Autonomous Driving [95.42203932627102]
3Dの人間のポーズ推定は、自動運転車が歩行者の微妙で複雑な振る舞いを知覚し理解できるようにする新しい技術である。
提案手法は,これらの補完信号を半教師付き方式で効率的に利用し,既存の手法よりも大きなマージンで性能を向上する。
具体的には、LiDAR点を画素整列マルチモーダル特徴に埋め込み、トランスフォーマーの精細化段階を経る。
論文 参考訳(メタデータ) (2022-12-15T11:15:14Z) - ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文 参考訳(メタデータ) (2022-06-14T17:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。