論文の概要: Let's Give a Voice to Conversational Agents in Virtual Reality
- arxiv url: http://arxiv.org/abs/2308.02665v1
- Date: Fri, 4 Aug 2023 18:51:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 19:29:31.413937
- Title: Let's Give a Voice to Conversational Agents in Virtual Reality
- Title(参考訳): バーチャルリアリティーで会話エージェントに声をあげよう
- Authors: Michele Yin, Gabriel Roccabruna, Abhinav Azad, Giuseppe Riccardi
- Abstract要約: 仮想環境における対話型エージェントの開発を簡略化する目的で,オープンソースアーキテクチャを提案する。
没入型ディスプレイとVRヘッドセットの両方のためにUnityで開発されたデジタルヘルスドメインで動作する会話型プロトタイプを2つ提示する。
- 参考スコア(独自算出の注目度): 2.7470819871568506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The dialogue experience with conversational agents can be greatly enhanced
with multimodal and immersive interactions in virtual reality. In this work, we
present an open-source architecture with the goal of simplifying the
development of conversational agents operating in virtual environments. The
architecture offers the possibility of plugging in conversational agents of
different domains and adding custom or cloud-based Speech-To-Text and
Text-To-Speech models to make the interaction voice-based. Using this
architecture, we present two conversational prototypes operating in the digital
health domain developed in Unity for both non-immersive displays and VR
headsets.
- Abstract(参考訳): 会話エージェントとの対話体験は、仮想現実におけるマルチモーダルおよび没入的インタラクションによって大幅に向上することができる。
本研究では,仮想環境で動作する対話エージェントの開発を簡略化する目的で,オープンソースアーキテクチャを提案する。
このアーキテクチャは、異なるドメインの会話エージェントをプラグインし、カスタムまたはクラウドベースの音声対テキストおよびテキスト対音声モデルを追加して、対話音声ベースにする機能を提供する。
このアーキテクチャを用いて、没入型ディスプレイとVRヘッドセットの両方のためにUnityで開発されたデジタルヘルスドメインで動作する会話型プロトタイプを2つ提示する。
関連論文リスト
- Instruct Once, Chat Consistently in Multiple Rounds: An Efficient Tuning
Framework for Dialogue [14.595548353288525]
マルチラウンド対話チューニング(Midi-Tuning)フレームワークを提案する。
エージェントとユーザを、大きな言語モデル上に構築された2つのアダプタで個別にモデル化する。
論文 参考訳(メタデータ) (2024-02-10T14:52:52Z) - Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - Digital Life Project: Autonomous 3D Characters with Social Intelligence [86.2845109451914]
Digital Life Projectは、言語をユニバーサルメディアとして活用し、自律的な3Dキャラクタを構築するためのフレームワークである。
私たちのフレームワークは、SocioMindとMoMat-MoGenの2つの主要コンポーネントで構成されています。
論文 参考訳(メタデータ) (2023-12-07T18:58:59Z) - Voice2Action: Language Models as Agent for Efficient Real-Time
Interaction in Virtual Reality [1.160324357508053]
大規模言語モデル(LLM)は、ごく少数の例で自然言語命令に従うように訓練されている。
本稿では,アクションとエンティティ抽出による音声信号とテキストコマンドを階層的に解析するフレームワークであるVoice2Actionを提案する。
人工的な指示データを用いた都市工学VR環境における実験結果から,Voice2Actionは最適化のないアプローチよりも効率的かつ高精度に動作可能であることが示された。
論文 参考訳(メタデータ) (2023-09-29T19:06:52Z) - FurChat: An Embodied Conversational Agent using LLMs, Combining Open and
Closed-Domain Dialogue with Facial Expressions [6.710740803770234]
本研究では,アクセプティストとして機能し,表情とともにオープンドメインとクローズドドメインの対話を混合して生成できる具体的会話エージェントを実演する。
このシステムをFurhatロボットにデプロイし、対話中に言語と非言語の両方の手がかりを利用できるようにした。
論文 参考訳(メタデータ) (2023-08-29T11:08:40Z) - SAPIEN: Affective Virtual Agents Powered by Large Language Models [2.423280064224919]
我々は,大規模言語モデルによって駆動される高忠実度仮想エージェントのためのプラットフォームであるSAPIENを紹介する。
このプラットフォームでは、仮想エージェントのパーソナリティ、バックグラウンド、会話の前提をカスタマイズすることができる。
仮想会議の後、ユーザーは会話を分析し、コミュニケーションスキルに対して実行可能なフィードバックを受け取ることができる。
論文 参考訳(メタデータ) (2023-08-06T05:13:16Z) - Interactive Conversational Head Generation [68.76774230274076]
対面会話における1つのインターロケータの振る舞いを合成するための新しい対話ヘッド生成ベンチマークを提案する。
長時間・複数回会話に参加可能なインターロカクタを自動的に合成する機能は不可欠であり、様々なアプリケーションにメリットを提供する。
論文 参考訳(メタデータ) (2023-07-05T08:06:26Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z) - Building Goal-Oriented Dialogue Systems with Situated Visual Context [12.014793558784955]
スクリーン付きバーチャルアシスタントの急増に伴い、次世代のエージェントはスクリーンコンテキストを理解する必要がある。
本稿では,対話エージェントの次の行動とその議論を対話と視覚の両方で協調的に条件付けする,新しい多モーダル対話フレームワークを提案する。
我々のモデルは、色や形状などの視覚的特徴と、視覚的実体に関連する価格や星のレーティングといったメタデータに基づく特徴を認識できる。
論文 参考訳(メタデータ) (2021-11-22T23:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。