論文の概要: Digital Avatars: Framework Development and Their Evaluation
- arxiv url: http://arxiv.org/abs/2408.04068v1
- Date: Wed, 7 Aug 2024 20:09:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 17:20:07.269586
- Title: Digital Avatars: Framework Development and Their Evaluation
- Title(参考訳): デジタルアバター:フレームワークの開発と評価
- Authors: Timothy Rupprecht, Sung-En Chang, Yushu Wu, Lei Lu, Enfu Nan, Chih-hsiang Li, Caiyue Lai, Zhimin Li, Zhijun Hu, Yumei He, David Kaeli, Yanzhi Wang,
- Abstract要約: Crowd Vote - Crowd Scoreの適応版で、審査員が同じまたは同様のプロンプトに答える競合相手に対して、大きな言語モデル(LLM)候補を選択することができる。
本稿では,高忠実度人工知能(AI)駆動型デジタルアバターを作成するためのエンドツーエンドフレームワークを提案する。
私たちの視覚化ツールと、私たちのCrowd Voteメトリクスは、AIによって駆動されるデジタルアバターが、最先端のユーモア、認証、そしてすべてのライバルやベースラインを上回ります。
- 参考スコア(独自算出の注目度): 26.74934835511383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel prompting strategy for artificial intelligence driven digital avatars. To better quantify how our prompting strategy affects anthropomorphic features like humor, authenticity, and favorability we present Crowd Vote - an adaptation of Crowd Score that allows for judges to elect a large language model (LLM) candidate over competitors answering the same or similar prompts. To visualize the responses of our LLM, and the effectiveness of our prompting strategy we propose an end-to-end framework for creating high-fidelity artificial intelligence (AI) driven digital avatars. This pipeline effectively captures an individual's essence for interaction and our streaming algorithm delivers a high-quality digital avatar with real-time audio-video streaming from server to mobile device. Both our visualization tool, and our Crowd Vote metrics demonstrate our AI driven digital avatars have state-of-the-art humor, authenticity, and favorability outperforming all competitors and baselines. In the case of our Donald Trump and Joe Biden avatars, their authenticity and favorability are rated higher than even their real-world equivalents.
- Abstract(参考訳): 本稿では,人工知能駆動型デジタルアバターの新しいプロンプト戦略を提案する。
私たちのプロンプト戦略がユーモアや真正性,好ましさといった人為的特徴にどのように影響するかを,より正確に定量化するために,Crowd Vote – 審査員が同じあるいは同様のプロンプトに答える競合相手に対して,大きな言語モデル(LLM)候補を選択することのできるCrowd Scoreの適応 – を紹介します。
LLMの応答を可視化するために,我々は,高忠実度人工知能(AI)駆動のデジタルアバターを作成するためのエンドツーエンドのフレームワークを提案する。
このパイプラインは、個人の本質を効果的に捉え、ストリーミングアルゴリズムは、サーバからモバイルデバイスへのリアルタイムオーディオビデオストリーミングを備えた高品質なデジタルアバターを提供する。
私たちの視覚化ツールと、私たちのCrowd Voteメトリクスは、私たちのAI駆動のデジタルアバターが、最先端のユーモア、認証、そしてすべてのライバルやベースラインよりも好ましいことを実証しています。
われわれのドナルド・トランプとジョー・バイデンのアバターの場合、その本物さと好意性は実世界の同等品よりも高く評価されている。
関連論文リスト
- A multidimensional measurement of photorealistic avatar quality of experience [14.94879852506943]
フォトリアリスティックなアバターは人間のアバターで、実際の人間のように見え、動き、話す。
10次元の光実写アバター性能を主観的に測定するためのオープンソースのテストフレームワークを提供する。
これら9つの主観的指標とPSNR, SSIM, LPIPS, FID, FVDの相関は弱く, 感情の精度は適度である。
論文 参考訳(メタデータ) (2024-11-13T22:47:24Z) - EgoAvatar: Egocentric View-Driven and Photorealistic Full-body Avatars [56.56236652774294]
本研究では,光合成デジタルアバターを共同でモデル化し,同時に1つの自我中心映像から駆動する人物中心型テレプレゼンス手法を提案する。
提案手法は,エゴセントリック・フォトリアル・テレプレゼンスへの明確な一歩として,ベースラインと競合する手法に優れることを示す。
論文 参考訳(メタデータ) (2024-09-22T22:50:27Z) - Traceable AI-driven Avatars Using Multi-factors of Physical World and Metaverse [7.436039179584676]
Metaverseでは、AIモデルをAIエンジンに委譲して、対応するAI駆動アバターを構築することができる。
本稿では,AI駆動アバターのトレーサビリティを保証するため,多要素認証を用いた認証手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T09:04:11Z) - TEDRA: Text-based Editing of Dynamic and Photoreal Actors [59.480513384611804]
TEDRAはアバターのテキストベースの編集を可能にする最初の方法である。
我々は、実際の俳優の制御可能で高忠実なデジタルレプリカを作成するためにモデルを訓練する。
提供されるテキストプロンプトに基づいて動的アバターを変更する。
論文 参考訳(メタデータ) (2024-08-28T17:59:02Z) - X-Oscar: A Progressive Framework for High-quality Text-guided 3D Animatable Avatar Generation [63.74194950823133]
X-Oscarはテキストプロンプトから高品質なアニマタブルアバターを生成するためのプログレッシブフレームワークである。
過飽和に対処するために、トレーニング中にアバターを適応分布として表現する適応変分法を導入する。
Avatar-aware Score Distillation Smpling (ASDS) も提案する。
論文 参考訳(メタデータ) (2024-05-02T02:30:39Z) - MagicMirror: Fast and High-Quality Avatar Generation with a Constrained Search Space [25.24509617548819]
テキストプロンプトを利用した3次元アバター生成とパーソナライズのための新しいフレームワークを提案する。
主要なイノベーションは、フォトリアリスティックなアバター合成の課題を克服することを目的としている。
論文 参考訳(メタデータ) (2024-04-01T17:59:11Z) - Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。
この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。
本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文 参考訳(メタデータ) (2023-06-06T08:50:13Z) - OTAvatar: One-shot Talking Face Avatar with Controllable Tri-plane
Rendering [81.55960827071661]
制御性、一般化性、効率性は、ニューラル暗黙の場で表される顔アバターを構成する主要な目的である。
汎用制御可能な3面描画ソリューションにより顔アバターを構成するワンショット面アバター(OTAvatar)を提案する。
論文 参考訳(メタデータ) (2023-03-26T09:12:03Z) - SwiftAvatar: Efficient Auto-Creation of Parameterized Stylized Character
on Arbitrary Avatar Engines [34.645129752596915]
我々は,新しいアバター自動作成フレームワークであるSwiftAvatarを提案する。
我々は、アバターベクトルとその対応する現実的な顔からなる高品質なデータをできるだけ多く合成する。
実験では2つの異なるアバターエンジンにおけるSwiftAvatarの有効性と効率を実証した。
論文 参考訳(メタデータ) (2023-01-19T16:14:28Z) - AgileAvatar: Stylized 3D Avatar Creation via Cascaded Domain Bridging [12.535634029277212]
高品質な3Dアバターを作成するための,新しい自己教師型学習フレームワークを提案する。
その結果,従来の作業よりもはるかに高い選好スコアが得られ,手作業による作成に近い結果が得られた。
論文 参考訳(メタデータ) (2022-11-15T00:43:45Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。