論文の概要: LLMR: Real-time Prompting of Interactive Worlds using Large Language
Models
- arxiv url: http://arxiv.org/abs/2309.12276v1
- Date: Thu, 21 Sep 2023 17:37:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 13:57:06.137803
- Title: LLMR: Real-time Prompting of Interactive Worlds using Large Language
Models
- Title(参考訳): LLMR:大規模言語モデルを用いた対話型世界のリアルタイムプロンプト
- Authors: Fernanda De La Torre, Cathy Mengying Fang, Han Huang, Andrzej
Banburski-Fahey, Judith Amores Fernandez, Jaron Lanier
- Abstract要約: Large Language Model for Mixed Reality (LLMR)は、インタラクティブなMixed Reality体験のリアルタイム作成と修正のためのフレームワークである。
私たちのフレームワークはテキストインタラクションとUnityゲームエンジンに依存しています。
LLMRは標準のGPT-4を平均誤差率で4倍に上回る。
- 参考スコア(独自算出の注目度): 47.85490062651006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Large Language Model for Mixed Reality (LLMR), a framework for the
real-time creation and modification of interactive Mixed Reality experiences
using LLMs. LLMR leverages novel strategies to tackle difficult cases where
ideal training data is scarce, or where the design goal requires the synthesis
of internal dynamics, intuitive analysis, or advanced interactivity. Our
framework relies on text interaction and the Unity game engine. By
incorporating techniques for scene understanding, task planning,
self-debugging, and memory management, LLMR outperforms the standard GPT-4 by
4x in average error rate. We demonstrate LLMR's cross-platform interoperability
with several example worlds, and evaluate it on a variety of creation and
modification tasks to show that it can produce and edit diverse objects, tools,
and scenes. Finally, we conducted a usability study (N=11) with a diverse set
that revealed participants had positive experiences with the system and would
use it again.
- Abstract(参考訳): LLMを用いた対話型混合現実体験のリアルタイム作成と修正のためのフレームワークであるLarge Language Model for Mixed Reality (LLMR)を提案する。
llmrは、理想的なトレーニングデータが不足したり、設計目標が内部ダイナミクスの合成、直感的な分析、高度な対話性を必要とする難しいケースに対処するために、新しい戦略を利用する。
私たちのフレームワークはテキストインタラクションとUnityゲームエンジンに依存しています。
シーン理解、タスク計画、自己デバッグ、メモリ管理の技術を取り入れることで、LLMRは標準のGPT-4を平均エラー率で4倍に向上させる。
llmrのクロスプラットフォームの相互運用性をいくつかの例で示し、さまざまな作成および修正タスクで評価することで、さまざまなオブジェクト、ツール、シーンを生成および編集できることを示します。
最後に,ユーザビリティスタディ (N=11) を行い, 参加者がシステムに対して肯定的な経験をしており, 再び使用することを明らかにした。
関連論文リスト
- Analyzing Multimodal Interaction Strategies for LLM-Assisted Manipulation of 3D Scenes [20.669785157017486]
LLM支援3Dシーン編集システムにおいて,定量的使用データと経験後アンケートフィードバックを併用し,共通のインタラクションパターンとキーバリアを明らかにする。
今後のLCM統合3Dコンテンツ作成システムの設計勧告を提案する。
論文 参考訳(メタデータ) (2024-10-29T16:15:59Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - MISAR: A Multimodal Instructional System with Augmented Reality [38.79160527414268]
Augmented Reality (AR) は、視覚、聴覚、言語チャネルのシームレスな統合を必要とする。
本研究では,大規模言語モデル(LLM)を用いた視覚・聴覚・文脈の類似化手法を提案する。
論文 参考訳(メタデータ) (2023-10-18T04:15:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。