論文の概要: Let's Give a Voice to Conversational Agents in Virtual Reality
- arxiv url: http://arxiv.org/abs/2308.02665v1
- Date: Fri, 4 Aug 2023 18:51:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 19:29:31.413937
- Title: Let's Give a Voice to Conversational Agents in Virtual Reality
- Title(参考訳): バーチャルリアリティーで会話エージェントに声をあげよう
- Authors: Michele Yin, Gabriel Roccabruna, Abhinav Azad, Giuseppe Riccardi
- Abstract要約: 仮想環境における対話型エージェントの開発を簡略化する目的で,オープンソースアーキテクチャを提案する。
没入型ディスプレイとVRヘッドセットの両方のためにUnityで開発されたデジタルヘルスドメインで動作する会話型プロトタイプを2つ提示する。
- 参考スコア(独自算出の注目度): 2.7470819871568506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The dialogue experience with conversational agents can be greatly enhanced
with multimodal and immersive interactions in virtual reality. In this work, we
present an open-source architecture with the goal of simplifying the
development of conversational agents operating in virtual environments. The
architecture offers the possibility of plugging in conversational agents of
different domains and adding custom or cloud-based Speech-To-Text and
Text-To-Speech models to make the interaction voice-based. Using this
architecture, we present two conversational prototypes operating in the digital
health domain developed in Unity for both non-immersive displays and VR
headsets.
- Abstract(参考訳): 会話エージェントとの対話体験は、仮想現実におけるマルチモーダルおよび没入的インタラクションによって大幅に向上することができる。
本研究では,仮想環境で動作する対話エージェントの開発を簡略化する目的で,オープンソースアーキテクチャを提案する。
このアーキテクチャは、異なるドメインの会話エージェントをプラグインし、カスタムまたはクラウドベースの音声対テキストおよびテキスト対音声モデルを追加して、対話音声ベースにする機能を提供する。
このアーキテクチャを用いて、没入型ディスプレイとVRヘッドセットの両方のためにUnityで開発されたデジタルヘルスドメインで動作する会話型プロトタイプを2つ提示する。
関連論文リスト
- Moshi: a speech-text foundation model for real-time dialogue [78.88479749811376]
現在の音声対話システムは、パイプラインの独立した音声活動検出と音声合成に依存している。
そこで本研究では,Moshi Moshiが音声認識と音声合成を実現する方法を紹介する。
得られたモデルは、初めてリアルタイムな全音声大言語モデルモダリティである。
論文 参考訳(メタデータ) (2024-09-17T17:55:39Z) - RITA: A Real-time Interactive Talking Avatars Framework [6.060251768347276]
RITAは、生成モデルに基づいて構築された高品質なリアルタイム対話型フレームワークを提供する。
当社のフレームワークは,ユーザのアップロードした写真からリアルタイム対話を行うデジタルアバターへの変換を可能にする。
論文 参考訳(メタデータ) (2024-06-18T22:53:15Z) - Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - Voice2Action: Language Models as Agent for Efficient Real-Time
Interaction in Virtual Reality [1.160324357508053]
大規模言語モデル(LLM)は、ごく少数の例で自然言語命令に従うように訓練されている。
本稿では,アクションとエンティティ抽出による音声信号とテキストコマンドを階層的に解析するフレームワークであるVoice2Actionを提案する。
人工的な指示データを用いた都市工学VR環境における実験結果から,Voice2Actionは最適化のないアプローチよりも効率的かつ高精度に動作可能であることが示された。
論文 参考訳(メタデータ) (2023-09-29T19:06:52Z) - SAPIEN: Affective Virtual Agents Powered by Large Language Models [2.423280064224919]
我々は,大規模言語モデルによって駆動される高忠実度仮想エージェントのためのプラットフォームであるSAPIENを紹介する。
このプラットフォームでは、仮想エージェントのパーソナリティ、バックグラウンド、会話の前提をカスタマイズすることができる。
仮想会議の後、ユーザーは会話を分析し、コミュニケーションスキルに対して実行可能なフィードバックを受け取ることができる。
論文 参考訳(メタデータ) (2023-08-06T05:13:16Z) - Interactive Conversational Head Generation [68.76774230274076]
対面会話における1つのインターロケータの振る舞いを合成するための新しい対話ヘッド生成ベンチマークを提案する。
長時間・複数回会話に参加可能なインターロカクタを自動的に合成する機能は不可欠であり、様々なアプリケーションにメリットを提供する。
論文 参考訳(メタデータ) (2023-07-05T08:06:26Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z) - Building Goal-Oriented Dialogue Systems with Situated Visual Context [12.014793558784955]
スクリーン付きバーチャルアシスタントの急増に伴い、次世代のエージェントはスクリーンコンテキストを理解する必要がある。
本稿では,対話エージェントの次の行動とその議論を対話と視覚の両方で協調的に条件付けする,新しい多モーダル対話フレームワークを提案する。
我々のモデルは、色や形状などの視覚的特徴と、視覚的実体に関連する価格や星のレーティングといったメタデータに基づく特徴を認識できる。
論文 参考訳(メタデータ) (2021-11-22T23:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。