論文の概要: When Generative AI Meets Extended Reality: Enabling Scalable and Natural Interactions
- arxiv url: http://arxiv.org/abs/2601.15308v1
- Date: Tue, 13 Jan 2026 15:21:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.339958
- Title: When Generative AI Meets Extended Reality: Enabling Scalable and Natural Interactions
- Title(参考訳): ジェネレーティブAIが拡張現実と出会う - スケーラブルで自然なインタラクションの実現
- Authors: Mingyu Zhu, Jiangong Chen, Bin Li,
- Abstract要約: Generative AI(GenAI)は、直感的で言語によるインタラクションとコンテンツ生成の自動化を可能にする。
本稿では、XRとGenAIの統合を3つの具体的なユースケースを通して検討し、スケーラビリティと自然な相互作用における重要な障害にどのように対処するかを示す。
- 参考スコア(独自算出の注目度): 8.808170696228865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extended Reality (XR), including virtual, augmented, and mixed reality, provides immersive and interactive experiences across diverse applications, from VR-based education to AR-based assistance and MR-based training. However, widespread XR adoption remains limited due to two key challenges: 1) the high cost and complexity of authoring 3D content, especially for large-scale environments or complex interactions; and 2) the steep learning curve associated with non-intuitive interaction methods like handheld controllers or scripted gestures. Generative AI (GenAI) presents a promising solution by enabling intuitive, language-driven interaction and automating content generation. Leveraging vision-language models and diffusion-based generation, GenAI can interpret ambiguous instructions, understand physical scenes, and generate or manipulate 3D content, significantly lowering barriers to XR adoption. This paper explores the integration of XR and GenAI through three concrete use cases, showing how they address key obstacles in scalability and natural interaction, and identifying technical challenges that must be resolved to enable broader adoption.
- Abstract(参考訳): 仮想、拡張現実、混合現実を含む拡張現実(XR)は、VRベースの教育からARベースの支援、MRベースのトレーニングまで、様々なアプリケーションにわたって没入的でインタラクティブな体験を提供する。
しかしながら、XRの採用は2つの主要な課題のために制限されている。
1)3Dコンテンツ、特に大規模環境や複雑な相互作用に対する作成のコストと複雑さ
2)ハンドヘルドコントローラやスクリプティングジェスチャなどの非直感的インタラクション手法に関連する急勾配学習曲線について検討した。
Generative AI(GenAI)は、直感的で言語駆動のインタラクションを可能にし、コンテンツ生成を自動化することで、有望なソリューションを提供する。
視覚言語モデルと拡散ベースの生成を活用することで、GenAIは曖昧な指示を解釈し、物理的なシーンを理解し、3Dコンテンツを生成し、操作することができる。
本稿では、XRとGenAIの統合を3つの具体的なユースケースを通じて検討し、スケーラビリティと自然な相互作用における重要な障害にどのように対処するかを示し、より広範な採用を実現するために解決すべき技術的課題を特定する。
関連論文リスト
- Interact2Ar: Full-Body Human-Human Interaction Generation via Autoregressive Diffusion Models [80.28579390566298]
テキスト条件付き自己回帰拡散モデルであるInteract2Arを導入する。
ハンドキネマティクスは専用のパラレルブランチを通じて組み込まれ、高忠実度フルボディ生成を可能にする。
我々のモデルは、時間的動きの合成、外乱へのリアルタイム適応、ディヤディックからマルチパーソンシナリオへの拡張など、一連のダウンストリームアプリケーションを可能にする。
論文 参考訳(メタデータ) (2025-12-22T18:59:50Z) - Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction [117.6380005194061]
本稿では,対話型環境の多様性と複雑さを体系的にスケールする手法を提案する。
本手法は,3次元に対処することで,このスケーリングを実現する。
Nex-N1は、インフラストラクチャによって確立された多様な複雑なインタラクティブ環境に基づいてトレーニングします。
論文 参考訳(メタデータ) (2025-12-04T16:57:02Z) - From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning [59.88543114325153]
本稿では,航法基礎モデルの強化学習能力を高めるためのSeeing-to-Experiencingフレームワークを提案する。
S2Eは、ビデオの事前トレーニングとRLによるポストトレーニングの長所を組み合わせたものだ。
実世界のシーンを3DGSで再現した3D画像に基づく総合的なエンドツーエンド評価ベンチマークであるNavBench-GSを構築した。
論文 参考訳(メタデータ) (2025-07-29T17:26:10Z) - Recent Advances and Future Directions in Extended Reality (XR): Exploring AI-Powered Spatial Intelligence [0.0]
拡張現実 (Extensioned Reality, XR) は、拡張現実(AR)、仮想現実(VR)、MR(Mixed Reality, MR)を包含する、物理世界と仮想世界を橋渡しするトランスフォーメーション技術である。
本稿では,XRの基盤的フレームワークによる進化を概観する。モニタからセンサ,視覚タスクからユーザインターフェースまで,ソフトウェアまで,幅広いハードウェアについて述べる。
今後の方向性については、適応型XRシステムを実現するために、マルチモーダルAIとIoT駆動のディジタルツインの統合に注意する必要がある。
論文 参考訳(メタデータ) (2025-04-22T15:11:55Z) - From Voices to Worlds: Developing an AI-Powered Framework for 3D Object Generation in Augmented Reality [0.7388329684634598]
MatrixはAugmented Reality(AR)環境でリアルタイム3Dオブジェクト生成用に設計された高度なAIベースのフレームワークである。
最先端のテキストから3D生成AIモデル,多言語音声からテキストへの翻訳,および大規模言語モデルを統合することで,音声コマンドによるシームレスなユーザインタラクションを実現する。
論文 参考訳(メタデータ) (2025-03-04T06:31:51Z) - Cognitive Assessment and Training in Extended Reality: Multimodal Systems, Clinical Utility, and Current Challenges [0.9831489366502301]
拡張現実(XR)技術は、現実世界のタスクをシミュレートする没入的でインタラクティブな環境を提供することによって、認知評価とトレーニングを変革している。
XRは、ガルバニック皮膚反応(GSR)、脳波(EEG)、眼球追跡(ET)、手追跡、身体追跡などのツールを通じて、リアルタイムのマルチモーダルデータ収集を可能にしながら、生態学的妥当性を高める。
論文 参考訳(メタデータ) (2025-01-14T16:22:36Z) - Grounded GUI Understanding for Vision-Based Spatial Intelligent Agent: Exemplified by Extended Reality Apps [39.56688889845037]
仮想現実感アプリのための最初のゼロショットcOntext-sensitive inteRactable GUI ElemeNT dEtectionフレームワークOrienterを提案する。
人間の振る舞いを模倣することで、OrienterはまずXRアプリケーションシーンの意味的コンテキストを観察し、理解し、次に検出を実行する。
論文 参考訳(メタデータ) (2024-09-17T00:58:00Z) - Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic
Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。
本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文 参考訳(メタデータ) (2023-11-13T21:20:17Z) - ArK: Augmented Reality with Knowledge Interactive Emergent Ability [115.72679420999535]
基礎モデルから新しいドメインへの知識記憶の伝達を学習する無限エージェントを開発する。
私たちのアプローチの核心は、Augmented Reality with Knowledge Inference Interaction (ArK)と呼ばれる新しいメカニズムである。
我々のArKアプローチは,大規模な基礎モデルと組み合わせることで,生成された2D/3Dシーンの品質を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-05-01T17:57:01Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。