論文の概要: LLAniMAtion: LLAMA Driven Gesture Animation
- arxiv url: http://arxiv.org/abs/2405.08042v1
- Date: Mon, 13 May 2024 12:40:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 16:06:44.635508
- Title: LLAniMAtion: LLAMA Driven Gesture Animation
- Title(参考訳): LLAniMation: LLAMA駆動ジェスチャーアニメーション
- Authors: Jonathan Windle, Iain Matthews, Sarah Taylor,
- Abstract要約: 共同音声のジェスチャーは会話において重要なモダリティであり、文脈や社会的手がかりを提供する。
伝統的に、ジェスチャーの自動生成方法は主に音声駆動であり、音声信号に符号化された韻律および音声関連コンテンツを利用する。
本稿では LLAMA2 を用いてテキストから抽出したジェスチャー生成に LLM 機能を利用する実験を行った。
LLAMA2ベースのモデルは、音声入力なしでビートとセマンティックジェスチャの両方を生成可能であることを実証し、ジェスチャー生成に適したリッチエンコーディングを提供できることを示唆する。
- 参考スコア(独自算出の注目度): 2.1642931452647427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Co-speech gesturing is an important modality in conversation, providing context and social cues. In character animation, appropriate and synchronised gestures add realism, and can make interactive agents more engaging. Historically, methods for automatically generating gestures were predominantly audio-driven, exploiting the prosodic and speech-related content that is encoded in the audio signal. In this paper we instead experiment with using LLM features for gesture generation that are extracted from text using LLAMA2. We compare against audio features, and explore combining the two modalities in both objective tests and a user study. Surprisingly, our results show that LLAMA2 features on their own perform significantly better than audio features and that including both modalities yields no significant difference to using LLAMA2 features in isolation. We demonstrate that the LLAMA2 based model can generate both beat and semantic gestures without any audio input, suggesting LLMs can provide rich encodings that are well suited for gesture generation.
- Abstract(参考訳): 共同音声のジェスチャーは会話において重要なモダリティであり、文脈や社会的手がかりを提供する。
キャラクターアニメーションでは、適切なジェスチャーと同期ジェスチャがリアリズムを付加し、対話的なエージェントをより魅力的にすることができる。
歴史的に、ジェスチャーの自動生成方法は主に音声駆動であり、音声信号に符号化された韻律および音声関連コンテンツを利用する。
本稿では LLAMA2 を用いてテキストから抽出したジェスチャー生成に LLM 機能を利用する実験を行った。
音声特徴と比較し、目的テストとユーザスタディの両方において2つのモダリティを組み合わせることを検討する。
以上の結果から,LLAMA2は音声機能よりも優れており,両モードを含むと,単独でLLAMA2機能を使用する場合とでは有意な差は認められなかった。
LLAMA2ベースのモデルは、音声入力なしでビートとセマンティックジェスチャの両方を生成可能であることを実証し、ジェスチャー生成に適したリッチエンコーディングを提供できることを示唆する。
関連論文リスト
- ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - EMAGE: Towards Unified Holistic Co-Speech Gesture Generation via Expressive Masked Audio Gesture Modeling [57.08286593059137]
音声とマスクによるジェスチャーから全身の人間のジェスチャーを生成するためのフレームワークEMAGEを提案する。
まずBEAT2(BEAT-SMPLX-FLAME)というメッシュレベルの音声合成データセットを紹介した。
実験により、EMAGEは最先端のパフォーマンスで総合的なジェスチャーを生成することが示された。
論文 参考訳(メタデータ) (2023-12-31T02:25:41Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [65.69648099999439]
Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
音声認識, 理解, 生成のための新しい音声・テキストGPTベースのLLMであるLauraGPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - LivelySpeaker: Towards Semantic-Aware Co-Speech Gesture Generation [41.42316077949012]
セマンティクスを意識した音声ジェスチャー生成を実現するフレームワークであるLivelySpeakerを紹介する。
本手法では,タスクをスクリプトベースのジェスチャー生成とオーディオガイドによるリズム改善の2段階に分割する。
新たな2段階生成フレームワークでは,妊娠スタイルの変更など,いくつかの応用が可能となった。
論文 参考訳(メタデータ) (2023-09-17T15:06:11Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Multimodal analysis of the predictability of hand-gesture properties [10.332200713176768]
身近な会話エージェントは、ジェスチャーで彼らのスピーチに同行できることの恩恵を受ける。
本稿では,現代ディープラーニングを用いた音声テキストおよび/または音声から,どのジェスチャー特性を予測できるかを検討する。
論文 参考訳(メタデータ) (2021-08-12T14:16:00Z) - Gesticulator: A framework for semantically-aware speech-driven gesture
generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。
深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。
結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文 参考訳(メタデータ) (2020-01-25T14:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。