Fugu-MT 論文翻訳(概要): AgentAvatar: Disentangling Planning, Driving and Rendering for Photorealistic Avatar Agents

論文の概要: AgentAvatar: Disentangling Planning, Driving and Rendering for Photorealistic Avatar Agents

arxiv url: http://arxiv.org/abs/2311.17465v3
Date: Mon, 4 Dec 2023 16:49:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 12:10:15.313956
Title: AgentAvatar: Disentangling Planning, Driving and Rendering for Photorealistic Avatar Agents
Title（参考訳）: Agent Avatar:フォトリアリスティックなアバターエージェントのためのプランニング、運転、レンダリング
Authors: Duomin Wang, Bin Dai, Yu Deng, Baoyuan Wang
Abstract要約: 我々のフレームワークはLLMを利用してアバターエージェントの顔の動きを詳細に記述する。これらの記述はタスク非依存の駆動エンジンによって連続的な動作埋め込みに処理される。我々の枠組みは、モナディックとディヤディックの両方において、様々な非言語アバター相互作用に適応する。
参考スコア（独自算出の注目度）: 16.544688997764293
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this study, our goal is to create interactive avatar agents that can autonomously plan and animate nuanced facial movements realistically, from both visual and behavioral perspectives. Given high-level inputs about the environment and agent profile, our framework harnesses LLMs to produce a series of detailed text descriptions of the avatar agents' facial motions. These descriptions are then processed by our task-agnostic driving engine into motion token sequences, which are subsequently converted into continuous motion embeddings that are further consumed by our standalone neural-based renderer to generate the final photorealistic avatar animations. These streamlined processes allow our framework to adapt to a variety of non-verbal avatar interactions, both monadic and dyadic. Our extensive study, which includes experiments on both newly compiled and existing datasets featuring two types of agents -- one capable of monadic interaction with the environment, and the other designed for dyadic conversation -- validates the effectiveness and versatility of our approach. To our knowledge, we advanced a leap step by combining LLMs and neural rendering for generalized non-verbal prediction and photo-realistic rendering of avatar agents.
Abstract（参考訳）: 本研究の目的は,視覚的・行動的両面から自律的に顔の動きを計画し,アニメーション化できる対話型アバターエージェントを作ることである。環境とエージェントプロファイルに関する高レベルなインプットを前提として,我々のフレームワークはLCMを用いて,アバターエージェントの顔の動きを詳細に記述する。これらの記述はタスク非依存の駆動エンジンによってモーショントークンシーケンスに変換され、その後、スタンドアロンのニューラルベースレンダラーによってさらに消費され、最終的なフォトリアリスティックなアバターアニメーションを生成する。これらの合理化プロセスにより、我々のフレームワークはモナディックとディアディックの両方の様々な非言語アバター相互作用に適応できる。環境とのモナディックインタラクションが可能なエージェントと,dyadic会話用に設計されたエージェントという2つのタイプのエージェントを特徴とする,新たにコンパイルされたデータセットと既存のデータセットの両方に関する実験を含む広範な研究は,我々のアプローチの有効性と汎用性を検証するものだ。我々は,llmとニューラルレンダリングを組み合わせることで,アバターエージェントの非言語的予測とフォトリアリスティックなレンダリングに飛躍的な一歩を踏み出した。

関連論文リスト

SmartAvatar: Text- and Image-Guided Human Avatar Generation with VLM AI Agents [91.26239311240873]
SmartAvatarは視覚言語によるアニメーション対応の3Dアバターを生成するためのフレームワークである。重要なイノベーションは、エージェントがドラフトアバターを描画する自動検証ループである。生成されたアバターは完全にリグされ、一貫したアイデンティティと外観で操作をサポートする。
論文参考訳（メタデータ） (2025-06-05T03:49:01Z)
EVA: Expressive Virtual Avatars from Multi-view Videos [51.33851869426057]
本稿では,アクター固有の,完全に制御可能な,表現力のある人間のアバターフレームワークであるExpressive Virtual Avatars (EVA)を紹介する。 EVAは、表情、身体の動き、手の動きの独立的な制御を可能にしながら、高忠実でライフライクなレンダリングをリアルタイムで実現している。この研究は、完全に乾燥可能なデジタル人間モデルに向けた大きな進歩を示している。
論文参考訳（メタデータ） (2025-05-21T11:22:52Z)
GSAC: Leveraging Gaussian Splatting for Photorealistic Avatar Creation with Unity Integration [45.439388725485124]
フォトリアリスティックアバターは、仮想現実(VR)や拡張現実(AR)における没入型アプリケーションに不可欠であり、トレーニングシミュレーション、遠隔医療、バーチャルコラボレーションなどの分野におけるライフライクなインタラクションを可能にする。既存のアバター生成技術は、高コスト、長い作成時間、仮想アプリケーションにおける限られたユーティリティなど、重大な課題に直面している。本稿では,モノクロビデオ入力を活用して,スケーラブルで効率的な光リアルアバターを作成する,エンドツーエンドの3Dガウス3DGSアバター生成パイプラインを提案する。
論文参考訳（メタデータ） (2025-04-17T15:10:14Z)
GaussianHeads: End-to-End Learning of Drivable Gaussian Head Avatars from Coarse-to-fine Representations [54.94362657501809]
マルチビュー画像から高ダイナミックで変形可能な人間の頭部アバターをリアルタイムで生成する手法を提案する。本手法のコアとなるのは,顔表情と頭部運動の複雑なダイナミクスを捉えることができる頭部モデルの階層的表現である。我々は、この粗い顔アバターモデルを、エンドツーエンドのフレームワークで学習可能なパラメータとして頭部ポーズとともに訓練する。
論文参考訳（メタデータ） (2024-09-18T13:05:43Z)
TEDRA: Text-based Editing of Dynamic and Photoreal Actors [59.480513384611804]
TEDRAはアバターのテキストベースの編集を可能にする最初の方法である。我々は、実際の俳優の制御可能で高忠実なデジタルレプリカを作成するためにモデルを訓練する。提供されるテキストプロンプトに基づいて動的アバターを変更する。
論文参考訳（メタデータ） (2024-08-28T17:59:02Z)
AniTalker: Animate Vivid and Diverse Talking Faces through Identity-Decoupled Facial Motion Encoding [24.486705010561067]
AniTalkerは、1つのポートレートから、生き生きとした話し顔を生成するために設計されたフレームワークである。 AniTalkerは、微妙な表情や頭の動きを含む、幅広い顔のダイナミクスを効果的にキャプチャする。
論文参考訳（メタデータ） (2024-05-06T02:32:41Z)
From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文参考訳（メタデータ） (2024-01-03T18:55:16Z)
GaussianAvatar: Towards Realistic Human Avatar Modeling from a Single Video via Animatable 3D Gaussians [51.46168990249278]
一つのビデオから動的に3D映像を映し出すリアルな人間のアバターを作成するための効率的なアプローチを提案する。 GustafAvatarは、公開データセットと収集データセットの両方で検証されています。
論文参考訳（メタデータ） (2023-12-04T18:55:45Z)
Motion Planning on Visual Manifolds [0.0]
我々は、Visual Configuration Space (VCS)と呼ばれる、構成空間の概念の代替的な特徴付けを提案する。この新たな特徴付けにより、エンボディエージェント(例えばロボット)は、自身の身体構造を発見し、ランダムなポーズで自身のイメージのセットを使用して、その周囲空間で障害物のない動きを計画することができる。 a)ロボットの運動計画のための幾何学的自由モデルの構築と作業におけるVCSの有用性、(b)人間の赤ちゃんが運動バブリングによって周囲空間の物体にどのように到達するか、(c)自然界の頭部を自動生成する方法について説明する。
論文参考訳（メタデータ） (2022-10-08T15:09:28Z)
Drivable Volumetric Avatars using Texel-Aligned Features [52.89305658071045]
光テレプレゼンスは、動的に合成された外観を実現するために、高忠実度ボディモデリングと忠実な運転の両方を必要とする。本稿では,現実人のフルボディアバターをモデリングし,駆動する際の2つの課題に対処するエンドツーエンドフレームワークを提案する。
論文参考訳（メタデータ） (2022-07-20T09:28:16Z)
iGibson, a Simulation Environment for Interactive Tasks in Large Realistic Scenes [54.04456391489063]
iGibsonは、大規模な現実的なシーンにおける対話的なタスクのためのロボットソリューションを開発するための、新しいシミュレーション環境である。私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。 iGibsonの機能はナビゲーションエージェントの一般化を可能にし、人間-iGibsonインターフェースと統合されたモーションプランナーは、単純な人間の実演行動の効率的な模倣学習を促進する。
論文参考訳（メタデータ） (2020-12-05T02:14:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。