論文の概要: Allo-AVA: A Large-Scale Multimodal Conversational AI Dataset for Allocentric Avatar Gesture Animation
- arxiv url: http://arxiv.org/abs/2410.16503v1
- Date: Mon, 21 Oct 2024 20:50:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:30:52.570031
- Title: Allo-AVA: A Large-Scale Multimodal Conversational AI Dataset for Allocentric Avatar Gesture Animation
- Title(参考訳): Allo-AVA:アロセントリックなアバタージェスチャーアニメーションのための大規模マルチモーダル会話型AIデータセット
- Authors: Saif Punjwani, Larry Heck,
- Abstract要約: Allo-AVAは、テキストとオーディオ駆動のアバタージェスチャーアニメーションのための、アロセントリックな(3人目の視点)コンテキストで特別に設計されたデータセットである。
このリソースは、より自然でコンテキスト対応のアバターアニメーションモデルの開発と評価を可能にする。
- 参考スコア(独自算出の注目度): 1.9797215742507548
- License:
- Abstract: The scarcity of high-quality, multimodal training data severely hinders the creation of lifelike avatar animations for conversational AI in virtual environments. Existing datasets often lack the intricate synchronization between speech, facial expressions, and body movements that characterize natural human communication. To address this critical gap, we introduce Allo-AVA, a large-scale dataset specifically designed for text and audio-driven avatar gesture animation in an allocentric (third person point-of-view) context. Allo-AVA consists of $\sim$1,250 hours of diverse video content, complete with audio, transcripts, and extracted keypoints. Allo-AVA uniquely maps these keypoints to precise timestamps, enabling accurate replication of human movements (body and facial gestures) in synchronization with speech. This comprehensive resource enables the development and evaluation of more natural, context-aware avatar animation models, potentially transforming applications ranging from virtual reality to digital assistants.
- Abstract(参考訳): 高品質でマルチモーダルなトレーニングデータの不足は、仮想環境における会話AIのためのライフライクなアバターアニメーションの作成を著しく妨げます。
既存のデータセットは、音声、表情、そして人間の自然なコミュニケーションを特徴付ける身体の動きの複雑な同期を欠いていることが多い。
この重要なギャップに対処するため、Allo-AVAはテキストとオーディオ駆動のアバタージェスチャアニメーションに特化して設計された大規模なデータセットである。
Allo-AVAは$\sim$1,250時間の多様なビデオコンテンツで構成され、オーディオ、テキスト、抽出キーポイントが完備している。
Allo-AVAはこれらのキーポイントを正確なタイムスタンプに一意にマッピングし、音声と同期して人間の動き(身体と顔のジェスチャー)を正確に再現する。
この包括的なリソースにより、より自然でコンテキスト対応のアバターアニメーションモデルの開発と評価が可能になり、バーチャルリアリティからデジタルアシスタントまで幅広いアプリケーションに変換される可能性がある。
関連論文リスト
- AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation [60.5897687447003]
AvatarGOはテキスト入力からリアルな4D HOIシーンを生成するために設計された新しいフレームワークである。
我々のフレームワークは、コヒーレントな構成運動を生成するだけでなく、問題に対処する上でより堅牢性を示す。
4Dアバターをオブジェクトインタラクションで合成する最初の試みとして、AvatarGOが人間中心の4Dコンテンツを作るための新しい扉を開くことを願っている。
論文 参考訳(メタデータ) (2024-10-09T17:58:56Z) - AniTalker: Animate Vivid and Diverse Talking Faces through Identity-Decoupled Facial Motion Encoding [24.486705010561067]
AniTalkerは、1つのポートレートから、生き生きとした話し顔を生成するために設計されたフレームワークである。
AniTalkerは、微妙な表情や頭の動きを含む、幅広い顔のダイナミクスを効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-05-06T02:32:41Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - Attention-Based VR Facial Animation with Visual Mouth Camera Guidance
for Immersive Telepresence Avatars [19.70403947793871]
本稿では,マウスカメラのキーポイントと直接視覚誘導を併用したハイブリッド手法を提案する。
提案手法は,未知の演算子に一般化され,短いビデオ2本をキャプチャして簡単なエンロラメントステップのみを必要とする。
我々は、ANAアバターXPRIZEファイナルでの勝利に顔のアニメーションがどう貢献したかを強調した。
論文 参考訳(メタデータ) (2023-12-15T12:45:11Z) - Physics-based Motion Retargeting from Sparse Inputs [73.94570049637717]
商用AR/VR製品はヘッドセットとコントローラーのみで構成されており、ユーザーのポーズのセンサーデータは非常に限られている。
本研究では, 多様な形態のキャラクタに対して, 粗い人間のセンサデータからリアルタイムに動きをターゲットする手法を提案する。
アバターのポーズは、下半身のセンサー情報がないにもかかわらず、驚くほどよくユーザと一致していることを示す。
論文 参考訳(メタデータ) (2023-07-04T21:57:05Z) - HSPACE: Synthetic Parametric Humans Animated in Complex Environments [67.8628917474705]
我々は、複雑な屋内および屋外環境に置かれたアニメーション人間による大規模な写真リアルデータセット、Human-SPACEを構築した。
年齢、性別、比率、民族性の異なる数百の個人と数百の動きとシーンを組み合わせて、100万フレームを超える最初のデータセットを生成します。
アセットは大規模に自動生成され、既存のリアルタイムレンダリングやゲームエンジンと互換性がある。
論文 参考訳(メタデータ) (2021-12-23T22:27:55Z) - Learning Speech-driven 3D Conversational Gestures from Video [106.15628979352738]
同期3D対話体と手のジェスチャーの両方を自動的に共同合成する最初のアプローチを提案します。
本アルゴリズムは,表情と手のジェスチャーの固有相関を利用したcnnアーキテクチャを用いる。
われわれはまた、33時間以上の注釈付きボディ、手、顔データからなる大きなコーパスを作成する新しい方法にも貢献する。
論文 参考訳(メタデータ) (2021-02-13T01:05:39Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。