論文の概要: LLMR: Real-time Prompting of Interactive Worlds using Large Language Models
- arxiv url: http://arxiv.org/abs/2309.12276v3
- Date: Fri, 22 Mar 2024 17:28:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 22:49:51.986627
- Title: LLMR: Real-time Prompting of Interactive Worlds using Large Language Models
- Title(参考訳): LLMR:大規模言語モデルを用いた対話型世界のリアルタイムプロンプト
- Authors: Fernanda De La Torre, Cathy Mengying Fang, Han Huang, Andrzej Banburski-Fahey, Judith Amores Fernandez, Jaron Lanier,
- Abstract要約: Large Language Model for Mixed Reality (LLMR)は、インタラクティブなMixed Reality体験のリアルタイム作成と修正のためのフレームワークである。
私たちのフレームワークはテキストインタラクションとUnityゲームエンジンに依存しています。
LLMRは標準のGPT-4を平均誤差率で4倍に上回る。
- 参考スコア(独自算出の注目度): 45.87888748442536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Large Language Model for Mixed Reality (LLMR), a framework for the real-time creation and modification of interactive Mixed Reality experiences using LLMs. LLMR leverages novel strategies to tackle difficult cases where ideal training data is scarce, or where the design goal requires the synthesis of internal dynamics, intuitive analysis, or advanced interactivity. Our framework relies on text interaction and the Unity game engine. By incorporating techniques for scene understanding, task planning, self-debugging, and memory management, LLMR outperforms the standard GPT-4 by 4x in average error rate. We demonstrate LLMR's cross-platform interoperability with several example worlds, and evaluate it on a variety of creation and modification tasks to show that it can produce and edit diverse objects, tools, and scenes. Finally, we conducted a usability study (N=11) with a diverse set that revealed participants had positive experiences with the system and would use it again.
- Abstract(参考訳): LLMを用いた対話型混合現実体験のリアルタイム作成と修正のためのフレームワークであるLarge Language Model for Mixed Reality (LLMR)を提案する。
LLMRは、理想的なトレーニングデータが不足している、あるいは設計目標が内部ダイナミクス、直感的な分析、高度な相互作用の合成を必要とする、困難なケースに対処するために、新しい戦略を活用する。
私たちのフレームワークはテキストインタラクションとUnityゲームエンジンに依存しています。
シーン理解、タスク計画、自己デバッグ、メモリ管理の技術を取り入れることで、LLMRは標準のGPT-4を平均エラー率で4倍に向上させる。
LLMRといくつかの例の世界とのクロスプラットフォームの相互運用性を実証し、さまざまな生成タスクと修正タスクで評価し、さまざまなオブジェクト、ツール、シーンを生成および編集できることを示します。
最後に,ユーザビリティスタディ (N=11) を行い, 参加者がシステムに対して肯定的な経験をしており, 再び使用することを明らかにした。
関連論文リスト
- LLMER: Crafting Interactive Extended Reality Worlds with JSON Data Generated by Large Language Models [22.53412407516448]
大規模言語モデル(LLM)と拡張現実性(XR)技術の統合は、真の没入型XR環境を構築する可能性を提供します。
XR環境の複雑さにより、XRアーティファクトの圧倒的な量から関連するコンテキストデータやシーン/オブジェクトパラメータを正確に抽出することが困難になる。
これらの課題を克服するために,LLMERを用いたインタラクティブな世界を創出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-04T16:08:48Z) - Dynamic benchmarking framework for LLM-based conversational data capture [0.0]
本稿では,大規模言語モデル(LLM)を評価するためのベンチマークフレームワークを提案する。
生成エージェントシミュレーションを統合して、情報抽出、コンテキスト認識、適応エンゲージメントといった重要次元のパフォーマンスを評価する。
その結果,不明瞭な応答を扱う場合,適応戦略によりデータの抽出精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-04T15:47:47Z) - MIRAGE: Exploring How Large Language Models Perform in Complex Social Interactive Environments [0.0]
本稿では,MIRAGE(Multiverse Interactive Role-play Ability General Evaluation)を紹介する。
MIRAGEは、殺人ミステリーゲームを通じて高度な人間の行動を描写する大規模言語モデルの能力を評価するために設計されたフレームワークである。
我々の実験は、GPT-4のような人気モデルでさえ、MIRAGEが提示する複雑さをナビゲートする上で大きな課題に直面していることを示している。
論文 参考訳(メタデータ) (2025-01-03T06:07:48Z) - Analyzing Multimodal Interaction Strategies for LLM-Assisted Manipulation of 3D Scenes [20.669785157017486]
LLM支援3Dシーン編集システムにおいて,定量的使用データと経験後アンケートフィードバックを併用し,共通のインタラクションパターンとキーバリアを明らかにする。
今後のLCM統合3Dコンテンツ作成システムの設計勧告を提案する。
論文 参考訳(メタデータ) (2024-10-29T16:15:59Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - MISAR: A Multimodal Instructional System with Augmented Reality [38.79160527414268]
Augmented Reality (AR) は、視覚、聴覚、言語チャネルのシームレスな統合を必要とする。
本研究では,大規模言語モデル(LLM)を用いた視覚・聴覚・文脈の類似化手法を提案する。
論文 参考訳(メタデータ) (2023-10-18T04:15:12Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。