論文の概要: AtomXR: Streamlined XR Prototyping with Natural Language and Immersive
Physical Interaction
- arxiv url: http://arxiv.org/abs/2311.11238v1
- Date: Sun, 19 Nov 2023 05:52:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 21:35:15.689518
- Title: AtomXR: Streamlined XR Prototyping with Natural Language and Immersive
Physical Interaction
- Title(参考訳): AtomXR: 自然言語と没入型物理的相互作用によるXRプロトタイピング
- Authors: Alice Cai, Caine Ardayfio, AnhPhu Nguyen, Tica Lin, Elena Glassman
- Abstract要約: AtomXRは、開発者が自然言語、アイゲイズ、タッチインタラクションを使ったアプリケーションを作成するのを支援するために設計された、合理化され、没入的、ノーコードXRプロトタイピングツールである。
AtomXRは、(1)高速プロトタイピングのための高レベルの人間解釈可能なスクリプト言語であるAtomScript、2)LLMとAtomScript生成のためのマルチモーダル入力を統合する自然言語インターフェース、3)没入型インヘッドセットオーサリング環境で構成される。
2つのユーザスタディによる経験的評価は、自然言語ベースおよび没入型プロトタイピングに関する洞察を与え、AtomXRは従来のシステムと比較して、スピードとユーザエクスペリエンスを大幅に改善することを示している。
- 参考スコア(独自算出の注目度): 2.02671066150924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As technological advancements in extended reality (XR) amplify the demand for
more XR content, traditional development processes face several challenges: 1)
a steep learning curve for inexperienced developers, 2) a disconnect between 2D
development environments and 3D user experiences inside headsets, and 3) slow
iteration cycles due to context switching between development and testing
environments. To address these challenges, we introduce AtomXR, a streamlined,
immersive, no-code XR prototyping tool designed to empower both experienced and
inexperienced developers in creating applications using natural language,
eye-gaze, and touch interactions. AtomXR consists of: 1) AtomScript, a
high-level human-interpretable scripting language for rapid prototyping, 2) a
natural language interface that integrates LLMs and multimodal inputs for
AtomScript generation, and 3) an immersive in-headset authoring environment.
Empirical evaluation through two user studies offers insights into natural
language-based and immersive prototyping, and shows AtomXR provides significant
improvements in speed and user experience compared to traditional systems.
- Abstract(参考訳): 拡張現実(XR)の技術的進歩により、より多くのXRコンテンツへの需要が増大するにつれ、従来の開発プロセスはいくつかの課題に直面している。
1)未熟な開発者のための急な学習曲線
2)ヘッドセット内における2次元開発環境と3次元ユーザ体験の切り離し
3) 開発環境とテスト環境のコンテキスト切り替えによるイテレーションサイクルの遅さ。
これらの課題に対処するために、私たちは、経験豊富な開発者と経験の浅い開発者の両方に、自然言語、目視、タッチインタラクションを使用したアプリケーション開発を促進すべく設計された、合理化され、没入的、ノーコードXRプロトタイピングツールであるAtomXRを紹介します。
AtomXRは以下のもので構成されます。
1. AtomScript - 高速プロトタイピングのための高レベルの人間解釈可能なスクリプト言語。
2)atomscript生成のためのllmsとマルチモーダル入力を統合する自然言語インタフェース
3)没入型インヘッドセットオーサリング環境。
2つのユーザスタディによる経験的評価は、自然言語ベースおよび没入型プロトタイピングに関する洞察を与え、AtomXRは従来のシステムと比較して、スピードとユーザエクスペリエンスを大幅に改善することを示している。
関連論文リスト
- CUIfy the XR: An Open-Source Package to Embed LLM-powered Conversational Agents in XR [31.49021749468963]
大言語モデル (LLM) は音声テキスト (STT) とテキスト音声 (TTS) モデルを備えた非プレーヤ文字 (NPC) を用いており、XR のより自然な対話型ユーザインタフェース (CUI) を促進するために、従来の NPC やプレスクリプトの NPC よりも大きな利点をもたらす。
我々はコミュニティに対して,様々なLLM, STT, TTSモデルとの音声ベースのNPCユーザインタラクションを容易にする,オープンソースでカスタマイズ可能な,プライバシ対応の Unity パッケージ CUIfy を提供する。
論文 参考訳(メタデータ) (2024-11-07T12:55:17Z) - Scaling Instructable Agents Across Many Simulated Worlds [70.97268311053328]
私たちのゴールは、シミュレーションされた3D環境で人間ができることを何でも達成できるエージェントを開発することです。
我々のアプローチは、最小限の仮定を示唆しながら、言語駆動の一般性に焦点を当てている。
我々のエージェントは、汎用的なヒューマンライクなインタフェースを使って、リアルタイムで環境と対話する。
論文 参考訳(メタデータ) (2024-03-13T17:50:32Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - Dialogue-based generation of self-driving simulation scenarios using
Large Language Models [14.86435467709869]
シミュレーションは自動運転車のコントローラーを開発し評価するための貴重なツールである。
現在のシミュレーションフレームワークは、高度に専門的なドメイン固有言語によって駆動される。
簡潔な英語の発話と、ユーザの意図をキャプチャする実行可能なコードの間には、しばしばギャップがある。
論文 参考訳(メタデータ) (2023-10-26T13:07:01Z) - CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation [73.78984332354636]
CorNavは視覚・言語ナビゲーションのための新しいゼロショットフレームワークである。
将来の計画の見直しや行動調整のための環境フィードバックが組み込まれている。
ゼロショットマルチタスク設定ですべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-06-17T11:44:04Z) - ReactGenie: A Development Framework for Complex Multimodal Interactions Using Large Language Models [12.0218963520643]
マルチモーダルインタフェースは モダリティのみの効率を 上回ります
本稿では,マルチモーダル入力を計算モデルから分離するプログラミングフレームワークReactGenieを提案する。
評価の結果、12人の開発者が平均2.5時間以内で、非自明なReactGenieアプリケーションを学習し、構築できることがわかった。
論文 参考訳(メタデータ) (2023-06-16T06:53:26Z) - PADL: Language-Directed Physics-Based Character Control [66.517142635815]
本稿では,文字が行うべきハイレベルなタスクと低レベルなスキルを指定するために,ユーザが自然言語コマンドを発行できるようにするPADLを提案する。
我々は,シミュレーションされたヒューマノイドキャラクタを効果的に誘導し,多種多様な複雑な運動能力を実現するために,本フレームワークを適用した。
論文 参考訳(メタデータ) (2023-01-31T18:59:22Z) - GenNI: Human-AI Collaboration for Data-Backed Text Generation [102.08127062293111]
Table2Textシステムは、機械学習を利用した構造化データに基づいてテキスト出力を生成する。
GenNI (Generation Negotiation Interface) は、対話型ビジュアルシステムである。
論文 参考訳(メタデータ) (2021-10-19T18:07:07Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - VisualHints: A Visual-Lingual Environment for Multimodal Reinforcement
Learning [14.553086325168803]
テキストベースのインタラクションと視覚的ヒント(環境から得られる)を含むマルチモーダル強化学習(RL)のための新しい環境であるVisualHintsを提案する。
環境全体に散在する視覚的手がかりを付加したTextWorld調理環境の拡張について紹介する。
目標は、RLエージェントがテキストと視覚の両方を使って自然言語のアクションコマンドを予測して、食事の調理の最終タスクを解決することである。
論文 参考訳(メタデータ) (2020-10-26T18:51:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。