論文の概要: AgentAvatar: Disentangling Planning, Driving and Rendering for
Photorealistic Avatar Agents
- arxiv url: http://arxiv.org/abs/2311.17465v3
- Date: Mon, 4 Dec 2023 16:49:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 12:10:15.313956
- Title: AgentAvatar: Disentangling Planning, Driving and Rendering for
Photorealistic Avatar Agents
- Title(参考訳): Agent Avatar:フォトリアリスティックなアバターエージェントのためのプランニング、運転、レンダリング
- Authors: Duomin Wang, Bin Dai, Yu Deng, Baoyuan Wang
- Abstract要約: 我々のフレームワークはLLMを利用してアバターエージェントの顔の動きを詳細に記述する。
これらの記述はタスク非依存の駆動エンジンによって連続的な動作埋め込みに処理される。
我々の枠組みは、モナディックとディヤディックの両方において、様々な非言語アバター相互作用に適応する。
- 参考スコア(独自算出の注目度): 16.544688997764293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, our goal is to create interactive avatar agents that can
autonomously plan and animate nuanced facial movements realistically, from both
visual and behavioral perspectives. Given high-level inputs about the
environment and agent profile, our framework harnesses LLMs to produce a series
of detailed text descriptions of the avatar agents' facial motions. These
descriptions are then processed by our task-agnostic driving engine into motion
token sequences, which are subsequently converted into continuous motion
embeddings that are further consumed by our standalone neural-based renderer to
generate the final photorealistic avatar animations. These streamlined
processes allow our framework to adapt to a variety of non-verbal avatar
interactions, both monadic and dyadic. Our extensive study, which includes
experiments on both newly compiled and existing datasets featuring two types of
agents -- one capable of monadic interaction with the environment, and the
other designed for dyadic conversation -- validates the effectiveness and
versatility of our approach. To our knowledge, we advanced a leap step by
combining LLMs and neural rendering for generalized non-verbal prediction and
photo-realistic rendering of avatar agents.
- Abstract(参考訳): 本研究の目的は,視覚的・行動的両面から自律的に顔の動きを計画し,アニメーション化できる対話型アバターエージェントを作ることである。
環境とエージェントプロファイルに関する高レベルなインプットを前提として,我々のフレームワークはLCMを用いて,アバターエージェントの顔の動きを詳細に記述する。
これらの記述はタスク非依存の駆動エンジンによってモーショントークンシーケンスに変換され、その後、スタンドアロンのニューラルベースレンダラーによってさらに消費され、最終的なフォトリアリスティックなアバターアニメーションを生成する。
これらの合理化プロセスにより、我々のフレームワークはモナディックとディアディックの両方の様々な非言語アバター相互作用に適応できる。
環境とのモナディックインタラクションが可能なエージェントと,dyadic会話用に設計されたエージェントという2つのタイプのエージェントを特徴とする,新たにコンパイルされたデータセットと既存のデータセットの両方に関する実験を含む広範な研究は,我々のアプローチの有効性と汎用性を検証するものだ。
我々は,llmとニューラルレンダリングを組み合わせることで,アバターエージェントの非言語的予測とフォトリアリスティックなレンダリングに飛躍的な一歩を踏み出した。
関連論文リスト
- GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations [54.94362657501809]
マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。
本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。
我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。
論文 参考訳(メタデータ) (2024-09-18T13:05:43Z) - TEDRA: Text-based Editing of Dynamic and Photoreal Actors [59.480513384611804]
TEDRAはアバターのテキストベースの編集を可能にする最初の方法である。
我々は、実際の俳優の制御可能で高忠実なデジタルレプリカを作成するためにモデルを訓練する。
提供されるテキストプロンプトに基づいて動的アバターを変更する。
論文 参考訳(メタデータ) (2024-08-28T17:59:02Z) - AniTalker: Animate Vivid and Diverse Talking Faces through Identity-Decoupled Facial Motion Encoding [24.486705010561067]
AniTalkerは、1つのポートレートから、生き生きとした話し顔を生成するために設計されたフレームワークである。
AniTalkerは、微妙な表情や頭の動きを含む、幅広い顔のダイナミクスを効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-05-06T02:32:41Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - GaussianAvatar: Towards Realistic Human Avatar Modeling from a Single Video via Animatable 3D Gaussians [51.46168990249278]
一つのビデオから動的に3D映像を映し出すリアルな人間のアバターを作成するための効率的なアプローチを提案する。
GustafAvatarは、公開データセットと収集データセットの両方で検証されています。
論文 参考訳(メタデータ) (2023-12-04T18:55:45Z) - Motion Planning on Visual Manifolds [0.0]
我々は、Visual Configuration Space (VCS)と呼ばれる、構成空間の概念の代替的な特徴付けを提案する。
この新たな特徴付けにより、エンボディエージェント(例えばロボット)は、自身の身体構造を発見し、ランダムなポーズで自身のイメージのセットを使用して、その周囲空間で障害物のない動きを計画することができる。
a)ロボットの運動計画のための幾何学的自由モデルの構築と作業におけるVCSの有用性、(b)人間の赤ちゃんが運動バブリングによって周囲空間の物体にどのように到達するか、(c)自然界の頭部を自動生成する方法について説明する。
論文 参考訳(メタデータ) (2022-10-08T15:09:28Z) - Drivable Volumetric Avatars using Texel-Aligned Features [52.89305658071045]
光テレプレゼンスは、動的に合成された外観を実現するために、高忠実度ボディモデリングと忠実な運転の両方を必要とする。
本稿では,現実人のフルボディアバターをモデリングし,駆動する際の2つの課題に対処するエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-20T09:28:16Z) - iGibson, a Simulation Environment for Interactive Tasks in Large
Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。
私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。
iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文 参考訳(メタデータ) (2020-12-05T02:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。