論文の概要: RITA: A Real-time Interactive Talking Avatars Framework
- arxiv url: http://arxiv.org/abs/2406.13093v1
- Date: Tue, 18 Jun 2024 22:53:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 23:58:20.480360
- Title: RITA: A Real-time Interactive Talking Avatars Framework
- Title(参考訳): RITA: リアルタイム対話型アバターフレームワーク
- Authors: Wuxinlin Cheng, Cheng Wan, Yupeng Cao, Sihan Chen,
- Abstract要約: RITAは、生成モデルに基づいて構築された高品質なリアルタイム対話型フレームワークを提供する。
当社のフレームワークは,ユーザのアップロードした写真からリアルタイム対話を行うデジタルアバターへの変換を可能にする。
- 参考スコア(独自算出の注目度): 6.060251768347276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RITA presents a high-quality real-time interactive framework built upon generative models, designed with practical applications in mind. Our framework enables the transformation of user-uploaded photos into digital avatars that can engage in real-time dialogue interactions. By leveraging the latest advancements in generative modeling, we have developed a versatile platform that not only enhances the user experience through dynamic conversational avatars but also opens new avenues for applications in virtual reality, online education, and interactive gaming. This work showcases the potential of integrating computer vision and natural language processing technologies to create immersive and interactive digital personas, pushing the boundaries of how we interact with digital content.
- Abstract(参考訳): RITAは、実用的な応用を念頭に設計された、生成モデルに基づく高品質なリアルタイム対話型フレームワークを提供する。
当社のフレームワークは,ユーザのアップロードした写真からリアルタイム対話を行うデジタルアバターへの変換を可能にする。
生成モデリングの最新の進歩を活用することで、動的会話アバターによるユーザエクスペリエンスの向上だけでなく、仮想現実、オンライン教育、インタラクティブゲーミングにおけるアプリケーションへの新たな道を開く、汎用的なプラットフォームを開発した。
この研究は、コンピュータビジョンと自然言語処理技術を統合して没入的でインタラクティブなデジタルペルソナを作ることの可能性を示し、デジタルコンテンツとのインタラクションの限界を押し広げている。
関連論文リスト
- Social Conjuring: Multi-User Runtime Collaboration with AI in Building Virtual 3D Worlds [3.5152339192019113]
Social Conjurerは、AIによる動的3Dシーンの共同作成のためのフレームワークである。
本稿では,AIモデルを3次元コンテンツ生成に組み込んだヒューマン中心インタフェースの設計における意味について述べる。
論文 参考訳(メタデータ) (2024-09-30T23:02:51Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - Digital Life Project: Autonomous 3D Characters with Social Intelligence [86.2845109451914]
Digital Life Projectは、言語をユニバーサルメディアとして活用し、自律的な3Dキャラクタを構築するためのフレームワークである。
私たちのフレームワークは、SocioMindとMoMat-MoGenの2つの主要コンポーネントで構成されています。
論文 参考訳(メタデータ) (2023-12-07T18:58:59Z) - AgentAvatar: Disentangling Planning, Driving and Rendering for
Photorealistic Avatar Agents [16.544688997764293]
我々のフレームワークはLLMを利用してアバターエージェントの顔の動きを詳細に記述する。
これらの記述はタスク非依存の駆動エンジンによって連続的な動作埋め込みに処理される。
我々の枠組みは、モナディックとディヤディックの両方において、様々な非言語アバター相互作用に適応する。
論文 参考訳(メタデータ) (2023-11-29T09:13:00Z) - DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via
Multi-Modal Causal Attention [55.2825684201129]
DeepSpeed-VisualChatは、マルチモーダル機能を組み込むことで、LLM(Large Language Models)を最適化するように設計されている。
筆者らのフレームワークは,(1)マルチラウンド・マルチイメージ対話のオープンソースサポート,(2)革新的なマルチモーダル因果注意機構の導入,(3)既存のデータセットにデータブレンディング技術を活用してシームレスな対話を実現すること,などが特徴である。
論文 参考訳(メタデータ) (2023-09-25T17:53:29Z) - SAPIEN: Affective Virtual Agents Powered by Large Language Models [2.423280064224919]
我々は,大規模言語モデルによって駆動される高忠実度仮想エージェントのためのプラットフォームであるSAPIENを紹介する。
このプラットフォームでは、仮想エージェントのパーソナリティ、バックグラウンド、会話の前提をカスタマイズすることができる。
仮想会議の後、ユーザーは会話を分析し、コミュニケーションスキルに対して実行可能なフィードバックを受け取ることができる。
論文 参考訳(メタデータ) (2023-08-06T05:13:16Z) - Let's Give a Voice to Conversational Agents in Virtual Reality [2.7470819871568506]
仮想環境における対話型エージェントの開発を簡略化する目的で,オープンソースアーキテクチャを提案する。
没入型ディスプレイとVRヘッドセットの両方のためにUnityで開発されたデジタルヘルスドメインで動作する会話型プロトタイプを2つ提示する。
論文 参考訳(メタデータ) (2023-08-04T18:51:38Z) - ChatPLUG: Open-Domain Generative Dialogue System with Internet-Augmented
Instruction Tuning for Digital Human [76.62897301298699]
ChatPLUGは、デジタルヒューマンアプリケーションのための中国のオープンドメイン対話システムである。
モデルネームは, 自動評価と人的評価の両方において, 最先端の中国語対話システムより優れていることを示す。
高速な推論でスマートスピーカーやインスタントメッセージアプリケーションのような実世界のアプリケーションにモデルネームをデプロイします。
論文 参考訳(メタデータ) (2023-04-16T18:16:35Z) - FaceChat: An Emotion-Aware Face-to-face Dialogue Framework [58.67608580694849]
FaceChatは、感情に敏感で対面的な会話を可能にするWebベースの対話フレームワークである。
システムには、カウンセリング、感情サポート、パーソナライズされたカスタマーサービスなど、幅広い潜在的なアプリケーションがある。
論文 参考訳(メタデータ) (2023-03-08T20:45:37Z) - RealityTalk: Real-Time Speech-Driven Augmented Presentation for AR Live
Storytelling [7.330145218077073]
本稿では,音声駆動の対話型仮想要素を用いたリアルタイムライブプレゼンテーションシステムであるRealityTalkを紹介する。
既存の177の動画編集型拡張現実プレゼンテーションの分析に基づいて,対話手法の新たなセットを提案する。
我々は,システムの有効性を実証するために,プレゼンターの視点からツールを評価する。
論文 参考訳(メタデータ) (2022-08-12T16:12:00Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。