論文の概要: Allo-AVA: A Large-Scale Multimodal Conversational AI Dataset for Allocentric Avatar Gesture Animation
- arxiv url: http://arxiv.org/abs/2410.16503v1
- Date: Mon, 21 Oct 2024 20:50:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:30:52.570031
- Title: Allo-AVA: A Large-Scale Multimodal Conversational AI Dataset for Allocentric Avatar Gesture Animation
- Title(参考訳): Allo-AVA:アロセントリックなアバタージェスチャーアニメーションのための大規模マルチモーダル会話型AIデータセット
- Authors: Saif Punjwani, Larry Heck,
- Abstract要約: Allo-AVAは、テキストとオーディオ駆動のアバタージェスチャーアニメーションのための、アロセントリックな(3人目の視点)コンテキストで特別に設計されたデータセットである。
このリソースは、より自然でコンテキスト対応のアバターアニメーションモデルの開発と評価を可能にする。
- 参考スコア(独自算出の注目度): 1.9797215742507548
- License:
- Abstract: The scarcity of high-quality, multimodal training data severely hinders the creation of lifelike avatar animations for conversational AI in virtual environments. Existing datasets often lack the intricate synchronization between speech, facial expressions, and body movements that characterize natural human communication. To address this critical gap, we introduce Allo-AVA, a large-scale dataset specifically designed for text and audio-driven avatar gesture animation in an allocentric (third person point-of-view) context. Allo-AVA consists of $\sim$1,250 hours of diverse video content, complete with audio, transcripts, and extracted keypoints. Allo-AVA uniquely maps these keypoints to precise timestamps, enabling accurate replication of human movements (body and facial gestures) in synchronization with speech. This comprehensive resource enables the development and evaluation of more natural, context-aware avatar animation models, potentially transforming applications ranging from virtual reality to digital assistants.
- Abstract(参考訳): 高品質でマルチモーダルなトレーニングデータの不足は、仮想環境における会話AIのためのライフライクなアバターアニメーションの作成を著しく妨げます。
既存のデータセットは、音声、表情、そして人間の自然なコミュニケーションを特徴付ける身体の動きの複雑な同期を欠いていることが多い。
この重要なギャップに対処するため、Allo-AVAはテキストとオーディオ駆動のアバタージェスチャアニメーションに特化して設計された大規模なデータセットである。
Allo-AVAは$\sim$1,250時間の多様なビデオコンテンツで構成され、オーディオ、テキスト、抽出キーポイントが完備している。
Allo-AVAはこれらのキーポイントを正確なタイムスタンプに一意にマッピングし、音声と同期して人間の動き(身体と顔のジェスチャー)を正確に再現する。
この包括的なリソースにより、より自然でコンテキスト対応のアバターアニメーションモデルの開発と評価が可能になり、バーチャルリアリティからデジタルアシスタントまで幅広いアプリケーションに変換される可能性がある。
関連論文リスト
- SkyReels-A1: Expressive Portrait Animation in Video Diffusion Transformers [30.06494915665044]
ポートレート画像アニメーションを容易にするために,ビデオ拡散トランスフォーマを基盤としたSkyReels-A1を提案する。
SkyReels-A1は、ビデオDiTの強力な生成能力を活用し、顔の動き伝達精度、アイデンティティ保持、時間的コヒーレンスを向上させる。
仮想アバター、リモート通信、デジタルメディア生成などの領域に適用可能である。
論文 参考訳(メタデータ) (2025-02-15T16:08:40Z) - GaussianSpeech: Audio-Driven Gaussian Avatars [76.10163891172192]
本稿では,3次元頭部アバターの高忠実度アニメーションシーケンスを音声音声から合成する手法であるGaussianSpeechを紹介する。
本稿では,表情に依存した色を生成するコンパクトで効率的な3DGSベースのアバター表現を提案する。
論文 参考訳(メタデータ) (2024-11-27T18:54:08Z) - AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation [60.5897687447003]
AvatarGOはテキスト入力からリアルな4D HOIシーンを生成するために設計された新しいフレームワークである。
我々のフレームワークは、コヒーレントな構成運動を生成するだけでなく、問題に対処する上でより堅牢性を示す。
4Dアバターをオブジェクトインタラクションで合成する最初の試みとして、AvatarGOが人間中心の4Dコンテンツを作るための新しい扉を開くことを願っている。
論文 参考訳(メタデータ) (2024-10-09T17:58:56Z) - AniTalker: Animate Vivid and Diverse Talking Faces through Identity-Decoupled Facial Motion Encoding [24.486705010561067]
AniTalkerは、1つのポートレートから、生き生きとした話し顔を生成するために設計されたフレームワークである。
AniTalkerは、微妙な表情や頭の動きを含む、幅広い顔のダイナミクスを効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-05-06T02:32:41Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - Physics-based Motion Retargeting from Sparse Inputs [73.94570049637717]
商用AR/VR製品はヘッドセットとコントローラーのみで構成されており、ユーザーのポーズのセンサーデータは非常に限られている。
本研究では, 多様な形態のキャラクタに対して, 粗い人間のセンサデータからリアルタイムに動きをターゲットする手法を提案する。
アバターのポーズは、下半身のセンサー情報がないにもかかわらず、驚くほどよくユーザと一致していることを示す。
論文 参考訳(メタデータ) (2023-07-04T21:57:05Z) - HSPACE: Synthetic Parametric Humans Animated in Complex Environments [67.8628917474705]
我々は、複雑な屋内および屋外環境に置かれたアニメーション人間による大規模な写真リアルデータセット、Human-SPACEを構築した。
年齢、性別、比率、民族性の異なる数百の個人と数百の動きとシーンを組み合わせて、100万フレームを超える最初のデータセットを生成します。
アセットは大規模に自動生成され、既存のリアルタイムレンダリングやゲームエンジンと互換性がある。
論文 参考訳(メタデータ) (2021-12-23T22:27:55Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。