論文の概要: CUIfy the XR: An Open-Source Package to Embed LLM-powered Conversational Agents in XR
- arxiv url: http://arxiv.org/abs/2411.04671v1
- Date: Thu, 07 Nov 2024 12:55:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:37:45.221167
- Title: CUIfy the XR: An Open-Source Package to Embed LLM-powered Conversational Agents in XR
- Title(参考訳): CUIfy the XR: LLMをベースとした会話エージェントをXRに組み込むオープンソースパッケージ
- Authors: Kadir Burak Buldu, Süleyman Özdel, Ka Hei Carrie Lau, Mengdi Wang, Daniel Saad, Sofie Schönborn, Auxane Boch, Enkelejda Kasneci, Efe Bozkir,
- Abstract要約: 大言語モデル (LLM) は音声テキスト (STT) とテキスト音声 (TTS) モデルを備えた非プレーヤ文字 (NPC) を用いており、XR のより自然な対話型ユーザインタフェース (CUI) を促進するために、従来の NPC やプレスクリプトの NPC よりも大きな利点をもたらす。
我々はコミュニティに対して,様々なLLM, STT, TTSモデルとの音声ベースのNPCユーザインタラクションを容易にする,オープンソースでカスタマイズ可能な,プライバシ対応の Unity パッケージ CUIfy を提供する。
- 参考スコア(独自算出の注目度): 31.49021749468963
- License:
- Abstract: Recent developments in computer graphics, machine learning, and sensor technologies enable numerous opportunities for extended reality (XR) setups for everyday life, from skills training to entertainment. With large corporations offering consumer-grade head-mounted displays (HMDs) in an affordable way, it is likely that XR will become pervasive, and HMDs will develop as personal devices like smartphones and tablets. However, having intelligent spaces and naturalistic interactions in XR is as important as technological advances so that users grow their engagement in virtual and augmented spaces. To this end, large language model (LLM)--powered non-player characters (NPCs) with speech-to-text (STT) and text-to-speech (TTS) models bring significant advantages over conventional or pre-scripted NPCs for facilitating more natural conversational user interfaces (CUIs) in XR. In this paper, we provide the community with an open-source, customizable, extensible, and privacy-aware Unity package, CUIfy, that facilitates speech-based NPC-user interaction with various LLMs, STT, and TTS models. Our package also supports multiple LLM-powered NPCs per environment and minimizes the latency between different computational models through streaming to achieve usable interactions between users and NPCs. We publish our source code in the following repository: https://gitlab.lrz.de/hctl/cuify
- Abstract(参考訳): 近年のコンピュータグラフィックス、機械学習、センサー技術の進歩は、スキルトレーニングからエンターテイメントまで、日常生活のための拡張現実(XR)セットアップの多くの機会を可能にしている。
大企業が消費者向けヘッドマウントディスプレイ(HMD)を手頃な価格で提供していることから、XRは普及し、HMDはスマートフォンやタブレットなどのパーソナルデバイスとして発展する可能性が高い。
しかし、XRにおける知的空間と自然主義的相互作用は、ユーザーが仮想空間や拡張空間でエンゲージメントを高めるために技術進歩と同じくらい重要である。
この目的のために,音声テキスト (STT) とテキスト音声 (TTS) を用いた大規模言語モデル (LLM) による非プレーヤ文字 (NPC) は,XR のより自然な対話型ユーザインタフェース (CUI) を促進するために,従来の NPC や事前記述型 NPC に対して大きな優位性をもたらす。
本稿では,様々なLLM, STT, TTSモデルとの音声ベースのNPCユーザインタラクションを容易にする,オープンソースでカスタマイズ可能な,拡張可能な,プライバシ対応のUnityパッケージCUIfyを提供する。
当社のパッケージは環境毎に複数のLLM方式のNPCもサポートしており、ストリーミングによって異なる計算モデル間のレイテンシを最小化して、ユーザとNPC間の使用可能なインタラクションを実現する。
ソースコードは以下のリポジトリに公開しています。
関連論文リスト
- OpenOmni: A Collaborative Open Source Tool for Building Future-Ready Multimodal Conversational Agents [11.928422245125985]
Open Omniはオープンソースのエンドツーエンドパイプラインベンチマークツールである。
音声テキスト、感情検出、検索拡張生成、大規模言語モデルなどの高度な技術を統合している。
ローカルとクラウドのデプロイメントをサポートし、データのプライバシを確保し、レイテンシと精度のベンチマークをサポートする。
論文 参考訳(メタデータ) (2024-08-06T09:02:53Z) - ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning [74.58666091522198]
非専門家による直感的なロボットプログラミングのためのフレームワークを提案する。
ロボットオペレーティングシステム(ROS)からの自然言語のプロンプトと文脈情報を活用する
我々のシステムは,大規模言語モデル (LLM) を統合し,非専門家がチャットインタフェースを通じてシステムにタスク要求を記述できるようにする。
論文 参考訳(メタデータ) (2024-06-28T08:28:38Z) - Autonomous Workflow for Multimodal Fine-Grained Training Assistants Towards Mixed Reality [28.27036270001756]
この作業は、AIエージェントを詳細にトレーニングするための拡張現実(XR)アプリケーションにシームレスに統合するための自律ワークフローを設計する。
パイロットXR環境におけるLEGOブロック組立のためのマルチモーダルきめ細粒度トレーニングアシスタントのデモンストレーションを行う。
論文 参考訳(メタデータ) (2024-05-16T14:20:30Z) - LEGENT: Open Platform for Embodied Agents [60.71847900126832]
LEGENTはLarge Language Models (LLM) とLarge Multimodal Models (LMM) を用いたエンボディエージェントを開発するためのオープンでスケーラブルなプラットフォームである。
LEGENTはリッチでインタラクティブな3D環境を提供し、コミュニケーション可能でアクション可能なエージェントをユーザフレンドリーなインターフェースと組み合わせている。
実験では、EGENT生成データに基づいて訓練された胚性視覚言語モデルが、エンボディタスクにおいてGPT-4Vを超える。
論文 参考訳(メタデータ) (2024-04-28T16:50:12Z) - ChatTracer: Large Language Model Powered Real-time Bluetooth Device Tracking System [7.21848268647674]
LLMを利用したリアルタイムBluetoothデバイストラッキングシステムChatTracerを提案する。
ChatTracerはBluetoothスニッフィングノード、データベース、微調整LDMからなる。
4つのスニッフィングノードを持つChatTracerのプロトタイプを開発しました。
論文 参考訳(メタデータ) (2024-03-28T21:04:11Z) - Embedding Large Language Models into Extended Reality: Opportunities and Challenges for Inclusion, Engagement, and Privacy [37.061999275101904]
我々は、それらをアバターに埋め込んだり、物語として含めることによって、XRで大きな言語モデルを使うことについて議論する。
ユーザがLLMを利用する空間に提供した情報と、得られた生体データを組み合わせることで、新たなプライバシー侵害につながるのではないか、と推測する。
論文 参考訳(メタデータ) (2024-02-06T11:19:40Z) - SpeechAgents: Human-Communication Simulation with Multi-Modal
Multi-Agent Systems [53.94772445896213]
大規模言語モデル(LLM)に基づくマルチエージェントシステムは,人間の社会をシミュレートする上で有望な性能を示した。
本研究では,マルチモーダルLLMに基づくマルチエージェントシステムであるSpeechAgentsを提案する。
論文 参考訳(メタデータ) (2024-01-08T15:01:08Z) - Agents: An Open-source Framework for Autonomous Language Agents [98.91085725608917]
我々は、言語エージェントを人工知能への有望な方向と見なしている。
Agentsはオープンソースライブラリで、これらの進歩を広く非専門的な聴衆に開放することを目的としています。
論文 参考訳(メタデータ) (2023-09-14T17:18:25Z) - GPT Models Meet Robotic Applications: Co-Speech Gesturing Chat System [8.660929270060146]
大規模言語モデル(LLM)の最近の進歩を利用したチャットロボットシステムを提案する。
このシステムは、音声の概念的意味に基づいて適切なジェスチャーを選択する、音声合成システムと統合されている。
論文 参考訳(メタデータ) (2023-05-10T10:14:16Z) - Unmasking Communication Partners: A Low-Cost AI Solution for Digitally
Removing Head-Mounted Displays in VR-Based Telepresence [62.997667081978825]
バーチャルリアリティ(VR)における対面会話は、被験者がヘッドマウントディスプレイ(HMD)を装着する際の課題である
過去の研究では、高コストハードウェアを用いた実験室環境では、VRで個人用アバターを用いた高忠実な顔再構成が可能であることが示されている。
我々は,オープンソース,フリーソフトウェア,安価なハードウェアのみを利用する,このタスクのための最初の低コストシステムを提案する。
論文 参考訳(メタデータ) (2020-11-06T23:17:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。