論文の概要: MAG: Multi-Modal Aligned Autoregressive Co-Speech Gesture Generation without Vector Quantization
- arxiv url: http://arxiv.org/abs/2503.14040v1
- Date: Tue, 18 Mar 2025 09:02:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:14:12.133514
- Title: MAG: Multi-Modal Aligned Autoregressive Co-Speech Gesture Generation without Vector Quantization
- Title(参考訳): MAG:ベクトル量子化のないマルチモーダルアライメント自己回帰型人工音声ジェスチャ生成
- Authors: Binjie Liu, Lina Liu, Sanyi Zhang, Songen Gu, Yihao Zhi, Tianyi Zhu, Lei Yang, Long Ye,
- Abstract要約: 既存の手法では,ジェスチャ生成にベクトル量子化トークンを伴って自己回帰モデルを用いるのが一般的である。
我々は、離散トークン化に頼ることなく、高品質で多様な音声合成のための新しいマルチモーダルアライメントフレームワークMAGを提案する。
- 参考スコア(独自算出の注目度): 8.605691647343065
- License:
- Abstract: This work focuses on full-body co-speech gesture generation. Existing methods typically employ an autoregressive model accompanied by vector-quantized tokens for gesture generation, which results in information loss and compromises the realism of the generated gestures. To address this, inspired by the natural continuity of real-world human motion, we propose MAG, a novel multi-modal aligned framework for high-quality and diverse co-speech gesture synthesis without relying on discrete tokenization. Specifically, (1) we introduce a motion-text-audio-aligned variational autoencoder (MTA-VAE), which leverages pre-trained WavCaps' text and audio embeddings to enhance both semantic and rhythmic alignment with motion, ultimately producing more realistic gestures. (2) Building on this, we propose a multimodal masked autoregressive model (MMAG) that enables autoregressive modeling in continuous motion embeddings through diffusion without vector quantization. To further ensure multi-modal consistency, MMAG incorporates a hybrid granularity audio-text fusion block, which serves as conditioning for diffusion process. Extensive experiments on two benchmark datasets demonstrate that MAG achieves stateof-the-art performance both quantitatively and qualitatively, producing highly realistic and diverse co-speech gestures.The code will be released to facilitate future research.
- Abstract(参考訳): 本研究は,全体共同音声ジェスチャ生成に焦点をあてる。
既存の手法では、ジェスチャ生成のためのベクトル量子化トークンを伴う自己回帰モデルが一般的であり、結果として情報損失が発生し、生成されたジェスチャのリアリズムを損なう。
実世界の人間の動作の自然な連続性から着想を得たMAGを提案する。これは、離散的なトークン化に頼ることなく、高品質で多様な共同音声合成のための新しいマルチモーダル・アライメント・フレームワークである。
具体的には,(1) 学習済みのWavCapsのテキストと音声の埋め込みを活用して,動作とリズミカルなアライメントを強化し,最終的にはよりリアルなジェスチャーを生成する動きテキストアライメント型変分自動符号化システム(MTA-VAE)を導入する。
2) これに基づいて,ベクトル量子化のない拡散による連続運動埋め込みにおける自己回帰モデリングを可能にするマルチモーダルマスク自己回帰モデル(MMAG)を提案する。
マルチモーダル整合性を確保するため、MMAGは拡散過程の条件付けとして機能するハイブリッド粒度オーディオテキスト融合ブロックを組み込んでいる。
2つのベンチマークデータセットに対する大規模な実験により、MAGは最先端のパフォーマンスを定量的かつ質的に達成し、非常に現実的で多様な共同音声ジェスチャーを生成することが示されている。
関連論文リスト
- Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z) - MoTe: Learning Motion-Text Diffusion Model for Multiple Generation Tasks [30.333659816277823]
動作とテキストの限界,条件,共同分布を同時に学習することで,多様なタスクを処理できる統合マルチモーダルモデルであるtextbfMoTe を提示する。
MoTeは3つのコンポーネントで構成されている: Motion-Decoder (MED)、Text-Decoder (TED)、Moti-on-Text Diffusion Model (MTDM)。
論文 参考訳(メタデータ) (2024-11-29T15:48:24Z) - MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding [76.30210465222218]
MotionGPT-2は、MLMLM(Large Motion-Language Model)である。
LLM(Large Language Models)によるマルチモーダル制御をサポートしている。
難易度の高い3次元全体運動生成タスクに高い適応性を持つ。
論文 参考訳(メタデータ) (2024-10-29T05:25:34Z) - Large Body Language Models [1.9797215742507548]
本稿では,LBLM(Large Body Language Models)とLBLM-AVA(LBLMアーキテクチャ)を紹介する。このアーキテクチャは,Transformer-XL大言語モデルと並列化拡散モデルを組み合わせて,マルチモーダル入力(テキスト,音声,ビデオ)からヒューマンライクなジェスチャーを生成する。
LBLM-AVAは、Frecheのジェスチャー距離(FGD)を30%削減し、Frecheの知覚距離(Inception Distance)を25%改善し、ライフライクで文脈的に適切なジェスチャーを生成する上で、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-21T21:48:24Z) - Dynamic Motion Synthesis: Masked Audio-Text Conditioned Spatio-Temporal Transformers [13.665279127648658]
本研究は,複数モーダルに条件付き全体動き列を同時に生成する新しい動き生成フレームワークを提案する。
空間的注意機構とトークン批評家を統合することで、生成した動きの一貫性と自然性を確保することができる。
論文 参考訳(メタデータ) (2024-09-03T04:19:27Z) - BAMM: Bidirectional Autoregressive Motion Model [14.668729995275807]
Bidirectional Autoregressive Motion Model (BAMM) は、新しいテキスト・ツー・モーション生成フレームワークである。
BAMMは2つの重要な構成要素から構成される: 3次元の人間の動きを潜在空間の離散トークンに変換するモーショントークンライザと、ランダムにマスクされたトークンを自動回帰予測するマスク付き自己注意変換器である。
この機能により、BAMMは、ユーザビリティと内蔵モーション編集性を向上し、高品質なモーション生成を同時に達成できる。
論文 参考訳(メタデータ) (2024-03-28T14:04:17Z) - Seamless Human Motion Composition with Blended Positional Encodings [38.85158088021282]
後処理や冗長な復調ステップを伴わずにシームレスなヒューマン・モーション・コンポジション(HMC)を生成する最初の拡散モデルであるフローMDMを紹介する。
我々はBabelとHumanML3Dデータセットの精度、リアリズム、スムーズさの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2024-02-23T18:59:40Z) - Masked Audio Generation using a Single Non-Autoregressive Transformer [90.11646612273965]
MAGNeTは、複数のオーディオトークンストリーム上で直接動作するマスク付き生成シーケンスモデリング手法である。
テキスト・トゥ・ミュージック・アンド・テキスト・トゥ・オーディオ・ジェネレーションのタスクにおけるMAGNeTの有効性を実証する。
我々は、自己回帰と非自己回帰モデリングのトレードオフを指摘するとともに、MAGNeTを構成する各コンポーネントの重要性を強調した。
論文 参考訳(メタデータ) (2024-01-09T14:29:39Z) - Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM
Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。
本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。
また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文 参考訳(メタデータ) (2023-09-25T19:42:16Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。