論文の概要: Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction
- arxiv url: http://arxiv.org/abs/2510.12834v1
- Date: Mon, 13 Oct 2025 09:51:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.345399
- Title: Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction
- Title(参考訳): Gelina:インターリーブトケ予測による統一音声とジェスチャ合成
- Authors: Téo Guichoux, Théodor Lemerle, Shivam Mehta, Jonas Beskow, Gustave Eje Henter, Laure Soulier, Catherine Pelachaud, Nicolas Obin,
- Abstract要約: 本稿では,テキストから音声と共同音声のジェスチャーを共同で合成する統合フレームワークであるGelinaを紹介する。
Gelinaはマルチスピーカーとマルチスタイルのクローンをサポートし、音声入力からジェスチャーのみの合成を可能にする。
- 参考スコア(独自算出の注目度): 14.650945453930754
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Human communication is multimodal, with speech and gestures tightly coupled, yet most computational methods for generating speech and gestures synthesize them sequentially, weakening synchrony and prosody alignment. We introduce Gelina, a unified framework that jointly synthesizes speech and co-speech gestures from text using interleaved token sequences in a discrete autoregressive backbone, with modality-specific decoders. Gelina supports multi-speaker and multi-style cloning and enables gesture-only synthesis from speech inputs. Subjective and objective evaluations demonstrate competitive speech quality and improved gesture generation over unimodal baselines.
- Abstract(参考訳): 人間のコミュニケーションはマルチモーダルであり、音声とジェスチャーは密結合されているが、音声とジェスチャーを生成するほとんどの計算手法はそれらを逐次合成し、同期と韻律のアライメントを弱める。
Gelinaはテキストから音声と音声のジェスチャーを合成する統合されたフレームワークで、個別の自己回帰的バックボーン内のインターリーブ付きトークンシーケンスをモダリティ特異的デコーダで合成する。
Gelinaはマルチスピーカーとマルチスタイルのクローンをサポートし、音声入力からジェスチャーのみの合成を可能にする。
主観的および客観的評価は、単調なベースライン上での競合音声品質とジェスチャー生成の改善を示す。
関連論文リスト
- MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。
我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-10-01T04:32:37Z) - Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。
提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文 参考訳(メタデータ) (2024-06-26T04:53:11Z) - CoVoMix: Advancing Zero-Shot Speech Generation for Human-like Multi-talker Conversations [97.75037148056367]
CoVoMixは、ゼロショット、人間ライク、マルチスピーカー、マルチラウンド対話音声生成のための新しいモデルである。
対話モデリングと生成の有効性を測定するための総合的なメトリクスセットを考案する。
論文 参考訳(メタデータ) (2024-04-10T02:32:58Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - Unified speech and gesture synthesis using flow matching [24.2094371314481]
本稿では,テキストから音声とスケルトンに基づく3次元ジェスチャーを共同で合成するための,新しい統一アーキテクチャを提案する。
提案したアーキテクチャは,従来の技術よりもシンプルで,メモリフットプリントが小さく,音声とジェスチャーの同時分布を捉えることができる。
論文 参考訳(メタデータ) (2023-10-08T14:37:28Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - QPGesture: Quantization-Based and Phase-Guided Motion Matching for
Natural Speech-Driven Gesture Generation [8.604430209445695]
音声によるジェスチャー生成は、人間の動きのランダムなジッタのため、非常に困難である。
本稿では,新しい量子化に基づく位相誘導型モーションマッチングフレームワークを提案する。
本手法は,音声によるジェスチャー生成における近年の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:31:25Z) - Zero-Shot Long-Form Voice Cloning with Dynamic Convolution Attention [0.0]
本稿では,数秒間の参照音声からターゲット音声を再生可能な,注意に基づく音声合成システムを提案する。
長期発話への一般化は、ダイナミック・コンボリューション・アテンション(Dynamic Convolution Attention)と呼ばれるエネルギーベースのアテンション機構を用いて実現される。
音声の自然性、話者の類似性、アライメントの整合性、長い発話を合成する能力などの観点から、音声クローニングシステムの実装を比較した。
論文 参考訳(メタデータ) (2022-01-25T15:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。