Fugu-MT 論文翻訳(概要): RITA: A Real-time Interactive Talking Avatars Framework

論文の概要: RITA: A Real-time Interactive Talking Avatars Framework

arxiv url: http://arxiv.org/abs/2406.13093v1
Date: Tue, 18 Jun 2024 22:53:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-21 23:58:20.480360
Title: RITA: A Real-time Interactive Talking Avatars Framework
Title（参考訳）: RITA: リアルタイム対話型アバターフレームワーク
Authors: Wuxinlin Cheng, Cheng Wan, Yupeng Cao, Sihan Chen,
Abstract要約: RITAは、生成モデルに基づいて構築された高品質なリアルタイム対話型フレームワークを提供する。当社のフレームワークは,ユーザのアップロードした写真からリアルタイム対話を行うデジタルアバターへの変換を可能にする。
参考スコア（独自算出の注目度）: 6.060251768347276
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: RITA presents a high-quality real-time interactive framework built upon generative models, designed with practical applications in mind. Our framework enables the transformation of user-uploaded photos into digital avatars that can engage in real-time dialogue interactions. By leveraging the latest advancements in generative modeling, we have developed a versatile platform that not only enhances the user experience through dynamic conversational avatars but also opens new avenues for applications in virtual reality, online education, and interactive gaming. This work showcases the potential of integrating computer vision and natural language processing technologies to create immersive and interactive digital personas, pushing the boundaries of how we interact with digital content.
Abstract（参考訳）: RITAは、実用的な応用を念頭に設計された、生成モデルに基づく高品質なリアルタイム対話型フレームワークを提供する。当社のフレームワークは,ユーザのアップロードした写真からリアルタイム対話を行うデジタルアバターへの変換を可能にする。生成モデリングの最新の進歩を活用することで、動的会話アバターによるユーザエクスペリエンスの向上だけでなく、仮想現実、オンライン教育、インタラクティブゲーミングにおけるアプリケーションへの新たな道を開く、汎用的なプラットフォームを開発した。この研究は、コンピュータビジョンと自然言語処理技術を統合して没入的でインタラクティブなデジタルペルソナを作ることの可能性を示し、デジタルコンテンツとのインタラクションの限界を押し広げている。

関連論文リスト

Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文参考訳（メタデータ） (2025-06-27T18:09:49Z)
SmartAvatar: Text- and Image-Guided Human Avatar Generation with VLM AI Agents [91.26239311240873]
SmartAvatarは視覚言語によるアニメーション対応の3Dアバターを生成するためのフレームワークである。重要なイノベーションは、エージェントがドラフトアバターを描画する自動検証ループである。生成されたアバターは完全にリグされ、一貫したアイデンティティと外観で操作をサポートする。
論文参考訳（メタデータ） (2025-06-05T03:49:01Z)
DRAWER: Digital Reconstruction and Articulation With Environment Realism [42.13130021795826]
静的屋内シーンの映像を光現実的でインタラクティブなデジタル環境に変換する新しいフレームワークであるDRAWERを提案する。我々は、DRAWERの可能性を、Unreal Engineでインタラクティブなゲームを自動的に作成し、ロボットアプリケーションのためのリアルからシミュレート・トゥ・リアルなトランスファーを可能にするために示している。
論文参考訳（メタデータ） (2025-04-21T17:59:49Z)
Social Conjuring: Multi-User Runtime Collaboration with AI in Building Virtual 3D Worlds [3.5152339192019113]
Social Conjurerは、AIによる動的3Dシーンの共同作成のためのフレームワークである。本稿では,AIモデルを3次元コンテンツ生成に組み込んだヒューマン中心インタフェースの設計における意味について述べる。
論文参考訳（メタデータ） (2024-09-30T23:02:51Z)
From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文参考訳（メタデータ） (2024-01-03T18:55:16Z)
Digital Life Project: Autonomous 3D Characters with Social Intelligence [86.2845109451914]
Digital Life Projectは、言語をユニバーサルメディアとして活用し、自律的な3Dキャラクタを構築するためのフレームワークである。私たちのフレームワークは、SocioMindとMoMat-MoGenの2つの主要コンポーネントで構成されています。
論文参考訳（メタデータ） (2023-12-07T18:58:59Z)
AgentAvatar: Disentangling Planning, Driving and Rendering for Photorealistic Avatar Agents [16.544688997764293]
我々のフレームワークはLLMを利用してアバターエージェントの顔の動きを詳細に記述する。これらの記述はタスク非依存の駆動エンジンによって連続的な動作埋め込みに処理される。我々の枠組みは、モナディックとディヤディックの両方において、様々な非言語アバター相互作用に適応する。
論文参考訳（メタデータ） (2023-11-29T09:13:00Z)
DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via Multi-Modal Causal Attention [55.2825684201129]
DeepSpeed-VisualChatは、マルチモーダル機能を組み込むことで、LLM(Large Language Models)を最適化するように設計されている。筆者らのフレームワークは,(1)マルチラウンド・マルチイメージ対話のオープンソースサポート,(2)革新的なマルチモーダル因果注意機構の導入,(3)既存のデータセットにデータブレンディング技術を活用してシームレスな対話を実現すること,などが特徴である。
論文参考訳（メタデータ） (2023-09-25T17:53:29Z)
SAPIEN: Affective Virtual Agents Powered by Large Language Models [2.423280064224919]
我々は,大規模言語モデルによって駆動される高忠実度仮想エージェントのためのプラットフォームであるSAPIENを紹介する。このプラットフォームでは、仮想エージェントのパーソナリティ、バックグラウンド、会話の前提をカスタマイズすることができる。仮想会議の後、ユーザーは会話を分析し、コミュニケーションスキルに対して実行可能なフィードバックを受け取ることができる。
論文参考訳（メタデータ） (2023-08-06T05:13:16Z)
Let's Give a Voice to Conversational Agents in Virtual Reality [2.7470819871568506]
仮想環境における対話型エージェントの開発を簡略化する目的で,オープンソースアーキテクチャを提案する。没入型ディスプレイとVRヘッドセットの両方のためにUnityで開発されたデジタルヘルスドメインで動作する会話型プロトタイプを2つ提示する。
論文参考訳（メタデータ） (2023-08-04T18:51:38Z)
ChatPLUG: Open-Domain Generative Dialogue System with Internet-Augmented Instruction Tuning for Digital Human [76.62897301298699]
ChatPLUGは、デジタルヒューマンアプリケーションのための中国のオープンドメイン対話システムである。モデルネームは, 自動評価と人的評価の両方において, 最先端の中国語対話システムより優れていることを示す。高速な推論でスマートスピーカーやインスタントメッセージアプリケーションのような実世界のアプリケーションにモデルネームをデプロイします。
論文参考訳（メタデータ） (2023-04-16T18:16:35Z)
FaceChat: An Emotion-Aware Face-to-face Dialogue Framework [58.67608580694849]
FaceChatは、感情に敏感で対面的な会話を可能にするWebベースの対話フレームワークである。システムには、カウンセリング、感情サポート、パーソナライズされたカスタマーサービスなど、幅広い潜在的なアプリケーションがある。
論文参考訳（メタデータ） (2023-03-08T20:45:37Z)
RealityTalk: Real-Time Speech-Driven Augmented Presentation for AR Live Storytelling [7.330145218077073]
本稿では,音声駆動の対話型仮想要素を用いたリアルタイムライブプレゼンテーションシステムであるRealityTalkを紹介する。既存の177の動画編集型拡張現実プレゼンテーションの分析に基づいて,対話手法の新たなセットを提案する。我々は,システムの有効性を実証するために,プレゼンターの視点からツールを評価する。
論文参考訳（メタデータ） (2022-08-12T16:12:00Z)
VIRT: Improving Representation-based Models for Text Matching through Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。 VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文参考訳（メタデータ） (2021-12-08T09:49:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。