論文の概要: Large Model Empowered Metaverse: State-of-the-Art, Challenges and Opportunities
- arxiv url: http://arxiv.org/abs/2502.10397v1
- Date: Sat, 18 Jan 2025 13:52:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 04:52:02.681598
- Title: Large Model Empowered Metaverse: State-of-the-Art, Challenges and Opportunities
- Title(参考訳): 大規模モデルを活用したメタバース:現状,課題,機会
- Authors: Yuntao Wang, Qinnan Hu, Zhou Su, Linkang Du, Qichao Xu,
- Abstract要約: Metaverseは没入型で永続的なデジタルエコシステムであり、ユーザは3D仮想環境内で対話し、社交し、作業することができる。
本稿では,メタバースにおける大規模モデルの統合について検討する。
メタバースレンダリングを最適化するための生成AIベースのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.465545107612595
- License:
- Abstract: The Metaverse represents a transformative shift beyond traditional mobile Internet, creating an immersive, persistent digital ecosystem where users can interact, socialize, and work within 3D virtual environments. Powered by large models such as ChatGPT and Sora, the Metaverse benefits from precise large-scale real-world modeling, automated multimodal content generation, realistic avatars, and seamless natural language understanding, which enhance user engagement and enable more personalized, intuitive interactions. However, challenges remain, including limited scalability, constrained responsiveness, and low adaptability in dynamic environments. This paper investigates the integration of large models within the Metaverse, examining their roles in enhancing user interaction, perception, content creation, and service quality. To address existing challenges, we propose a generative AI-based framework for optimizing Metaverse rendering. This framework includes a cloud-edge-end collaborative model to allocate rendering tasks with minimal latency, a mobility-aware pre-rendering mechanism that dynamically adjusts to user movement, and a diffusion model-based adaptive rendering strategy to fine-tune visual details. Experimental results demonstrate the effectiveness of our approach in enhancing rendering efficiency and reducing rendering overheads, advancing large model deployment for a more responsive and immersive Metaverse.
- Abstract(参考訳): Metaverseは、ユーザが3D仮想環境内で対話したり、社交したり、作業したりできる没入型で永続的なデジタルエコシステムを創りだす、従来のモバイルインターネットを超えた変革的な変化を表している。
ChatGPTやSoraのような大規模なモデルによって、Metaverseは、正確な大規模な実世界のモデリング、自動化されたマルチモーダルコンテンツ生成、現実的なアバター、そしてユーザーエンゲージメントを高め、よりパーソナライズされ直感的な対話を可能にするシームレスな自然言語理解の恩恵を受けている。
しかし、スケーラビリティの制限、応答性の制限、動的環境への適応性の低下など、課題は残る。
本稿では,Metaverse内の大規模モデルの統合について検討し,ユーザインタラクション,知覚,コンテンツ生成,サービス品質の向上におけるそれらの役割について検討する。
既存の課題に対処するために、メタバースレンダリングを最適化するための生成AIベースのフレームワークを提案する。
このフレームワークには、最小レイテンシでレンダリングタスクを割り当てるクラウド-エッジのコラボレーティブモデル、ユーザの動きに動的に調整するモビリティ対応のプレレンダリングメカニズム、視覚的詳細を微調整する拡散モデルベースの適応レンダリング戦略が含まれる。
実験により,より応答性が高く没入的なMetaverseを実現するため,レンダリング効率の向上とレンダリングオーバヘッドの低減,大規模モデル展開の促進に,我々のアプローチの有効性が示された。
関連論文リスト
- Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - Improving Dynamic Object Interactions in Text-to-Video Generation with AI Feedback [130.090296560882]
テキスト・ビデオ・モデルにおけるオブジェクトの動的性を高めるためのフィードバックの利用について検討する。
本手法は,動的インタラクションにおける映像品質の大幅な向上を駆動するバイナリAIフィードバックを用いて,多様な報酬を効果的に最適化できることを示す。
論文 参考訳(メタデータ) (2024-12-03T17:44:23Z) - Haptic Repurposing with GenAI [5.424247121310253]
Mixed Realityは、デジタル世界と物理的な世界を融合して、没入型人間とコンピュータのインタラクションを作ることを目指している。
本稿では,Haptic Repurposing with GenAIを紹介し,任意の物理オブジェクトをAI生成仮想アセットの適応型触覚インターフェースに変換することによってMRインタラクションを強化する革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-11T13:06:28Z) - FusionMamba: Dynamic Feature Enhancement for Multimodal Image Fusion with Mamba [19.761723108363796]
FusionMamba はコンピュータビジョンタスクにおいて CNN や Vision Transformers (ViT) が直面する課題を克服することを目的としている。
このフレームワークは動的畳み込みとチャネルアテンション機構を統合することで、視覚的状態空間モデルMambaを改善している。
実験により、FusionMambaは様々なマルチモーダル画像融合タスクや下流実験で最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2024-04-15T06:37:21Z) - VR-GS: A Physical Dynamics-Aware Interactive Gaussian Splatting System in Virtual Reality [39.53150683721031]
提案するVR-GSシステムは,人間中心の3Dコンテンツインタラクションにおける飛躍的な進歩を示す。
私たちの仮想現実システムのコンポーネントは、高い効率と有効性のために設計されています。
論文 参考訳(メタデータ) (2024-01-30T01:28:36Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Drivable Volumetric Avatars using Texel-Aligned Features [52.89305658071045]
光テレプレゼンスは、動的に合成された外観を実現するために、高忠実度ボディモデリングと忠実な運転の両方を必要とする。
本稿では,現実人のフルボディアバターをモデリングし,駆動する際の2つの課題に対処するエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-20T09:28:16Z) - ACID: Action-Conditional Implicit Visual Dynamics for Deformable Object
Manipulation [135.10594078615952]
本稿では,体積変形可能なオブジェクトに対する動作条件の視覚力学モデルであるACIDを紹介する。
ベンチマークには17,000以上のアクション・トラジェクトリー、6種類のぬいぐるみと78種類の変種が含まれている。
我々のモデルは、幾何学、対応、力学の予測において最高の性能を達成する。
論文 参考訳(メタデータ) (2022-03-14T04:56:55Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z) - Generative Adversarial Transformers [13.633811200719627]
本稿では,新規かつ効率的な変換器であるGANsformerを紹介し,視覚生成モデリングの課題について検討する。
ネットワークは、線形効率の計算を維持しながら、画像間の長距離相互作用を可能にする二部構造を用いる。
高速な学習とより良いデータ効率を享受しながら、画像品質と多様性の観点から最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-01T18:54:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。