論文の概要: LLMER: Crafting Interactive Extended Reality Worlds with JSON Data Generated by Large Language Models
- arxiv url: http://arxiv.org/abs/2502.02441v1
- Date: Tue, 04 Feb 2025 16:08:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:57:08.603152
- Title: LLMER: Crafting Interactive Extended Reality Worlds with JSON Data Generated by Large Language Models
- Title(参考訳): LLMER: 大規模言語モデルによって生成されたJSONデータによるインタラクティブな拡張現実世界の構築
- Authors: Jiangong Chen, Xiaoyi Wu, Tian Lan, Bin Li,
- Abstract要約: 大規模言語モデル(LLM)と拡張現実性(XR)技術の統合は、真の没入型XR環境を構築する可能性を提供します。
XR環境の複雑さにより、XRアーティファクトの圧倒的な量から関連するコンテキストデータやシーン/オブジェクトパラメータを正確に抽出することが困難になる。
これらの課題を克服するために,LLMERを用いたインタラクティブな世界を創出する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 22.53412407516448
- License:
- Abstract: The integration of Large Language Models (LLMs) like GPT-4 with Extended Reality (XR) technologies offers the potential to build truly immersive XR environments that interact with human users through natural language, e.g., generating and animating 3D scenes from audio inputs. However, the complexity of XR environments makes it difficult to accurately extract relevant contextual data and scene/object parameters from an overwhelming volume of XR artifacts. It leads to not only increased costs with pay-per-use models, but also elevated levels of generation errors. Moreover, existing approaches focusing on coding script generation are often prone to generation errors, resulting in flawed or invalid scripts, application crashes, and ultimately a degraded user experience. To overcome these challenges, we introduce LLMER, a novel framework that creates interactive XR worlds using JSON data generated by LLMs. Unlike prior approaches focusing on coding script generation, LLMER translates natural language inputs into JSON data, significantly reducing the likelihood of application crashes and processing latency. It employs a multi-stage strategy to supply only the essential contextual information adapted to the user's request and features multiple modules designed for various XR tasks. Our preliminary user study reveals the effectiveness of the proposed system, with over 80% reduction in consumed tokens and around 60% reduction in task completion time compared to state-of-the-art approaches. The analysis of users' feedback also illuminates a series of directions for further optimization.
- Abstract(参考訳): GPT-4のようなLarge Language Models(LLM)とExtended Reality(XR)技術を統合することで、音声入力から3Dシーンを生成し、アニメーションする自然言語を通じて、人間のユーザと対話する真の没入型XR環境を構築することができる。
しかしながら、XR環境の複雑さにより、XRアーティファクトの圧倒的な量から関連するコンテキストデータやシーン/オブジェクトパラメータを正確に抽出することは困難である。
これは、使用単価モデルにおけるコストの増加だけでなく、生成エラーのレベルの増加につながります。
さらに、スクリプト生成にフォーカスする既存のアプローチは、しばしばエラーを生成する傾向があり、欠陥や無効なスクリプト、アプリケーションのクラッシュ、究極的には劣化したユーザエクスペリエンスをもたらす。
LLMERは, LLMによって生成されたJSONデータを用いてインタラクティブなXR世界を生成する新しいフレームワークである。
コーディングスクリプト生成にフォーカスする以前のアプローチとは異なり、LLMERは自然言語入力をJSONデータに変換することで、アプリケーションのクラッシュや処理遅延の可能性を著しく低減している。
ユーザの要求に適合する重要なコンテキスト情報のみを供給し、様々なXRタスク用に設計された複数のモジュールを特徴とするマルチステージ戦略を採用している。
提案手法の有効性を明らかにするため, 使用トークンの80%以上を削減し, タスク完了時間の約60%を削減した。
ユーザのフィードバックの分析により、さらなる最適化のための一連の方向も照らされる。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - LUCID: LLM-Generated Utterances for Complex and Interesting Dialogues [38.6183579217801]
バーチャルアシスタントは、対話機能に関して飛躍的に前進する可能性がある。
しかし、真にトランスフォーメーションされたタスク指向の対話機能を実現するための大きなボトルネックは、高品質なデータの不足である。
LUCIDを使用して、100の意図にまたがる4,277の会話のシードデータセットを生成し、その能力を実証しています。
論文 参考訳(メタデータ) (2024-03-01T11:33:53Z) - AXOLOTL: Fairness through Assisted Self-Debiasing of Large Language
Model Outputs [20.772266479533776]
AXOLOTLはタスクやモデル間で不可知的に動作する新しい後処理フレームワークである。
バイアスを識別し、解像度を提案し、モデルにアウトプットを自己バイアスさせる。
このアプローチは計算コストを最小化し、モデル性能を保存する。
論文 参考訳(メタデータ) (2024-03-01T00:02:37Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - LLMR: Real-time Prompting of Interactive Worlds using Large Language Models [45.87888748442536]
Large Language Model for Mixed Reality (LLMR)は、インタラクティブなMixed Reality体験のリアルタイム作成と修正のためのフレームワークである。
私たちのフレームワークはテキストインタラクションとUnityゲームエンジンに依存しています。
LLMRは標準のGPT-4を平均誤差率で4倍に上回る。
論文 参考訳(メタデータ) (2023-09-21T17:37:01Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - PRESTO: A Multilingual Dataset for Parsing Realistic Task-Oriented
Dialogs [39.58414649004708]
PRESTOは、人間と仮想アシスタント間の550万以上のコンテキスト多言語会話のデータセットである。
現実のNLUタスクで発生する問題、例えば、障害、コードスイッチング、リビジョンなどが含まれる。
我々のmT5モデルに基づくベースラインは、PRESTOに存在する会話現象をモデル化することが困難であることを示している。
論文 参考訳(メタデータ) (2023-03-15T21:51:13Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z) - UnrealROX+: An Improved Tool for Acquiring Synthetic Data from Virtual
3D Environments [14.453602631430508]
ロボット画像から合成データを生成するためのツールであるUnrealROXの改良版を紹介します。
UnrealROX+には、Deep Learningフレームワークから仮想環境と対話するalbedoやPython APIを生成する、といった新機能が含まれている。
論文 参考訳(メタデータ) (2021-04-23T18:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。