Fugu-MT 論文翻訳(概要): Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction

論文の概要: Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction

arxiv url: http://arxiv.org/abs/2510.12834v1
Date: Mon, 13 Oct 2025 09:51:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-16 20:13:28.345399
Title: Gelina: Unified Speech and Gesture Synthesis via Interleaved Token Prediction
Title（参考訳）: Gelina:インターリーブトケ予測による統一音声とジェスチャ合成
Authors: Téo Guichoux, Théodor Lemerle, Shivam Mehta, Jonas Beskow, Gustave Eje Henter, Laure Soulier, Catherine Pelachaud, Nicolas Obin,
Abstract要約: 本稿では,テキストから音声と共同音声のジェスチャーを共同で合成する統合フレームワークであるGelinaを紹介する。 Gelinaはマルチスピーカーとマルチスタイルのクローンをサポートし、音声入力からジェスチャーのみの合成を可能にする。
参考スコア（独自算出の注目度）: 14.650945453930754
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Human communication is multimodal, with speech and gestures tightly coupled, yet most computational methods for generating speech and gestures synthesize them sequentially, weakening synchrony and prosody alignment. We introduce Gelina, a unified framework that jointly synthesizes speech and co-speech gestures from text using interleaved token sequences in a discrete autoregressive backbone, with modality-specific decoders. Gelina supports multi-speaker and multi-style cloning and enables gesture-only synthesis from speech inputs. Subjective and objective evaluations demonstrate competitive speech quality and improved gesture generation over unimodal baselines.
Abstract（参考訳）: 人間のコミュニケーションはマルチモーダルであり、音声とジェスチャーは密結合されているが、音声とジェスチャーを生成するほとんどの計算手法はそれらを逐次合成し、同期と韻律のアライメントを弱める。 Gelinaはテキストから音声と音声のジェスチャーを合成する統合されたフレームワークで、個別の自己回帰的バックボーン内のインターリーブ付きトークンシーケンスをモダリティ特異的デコーダで合成する。 Gelinaはマルチスピーカーとマルチスタイルのクローンをサポートし、音声入力からジェスチャーのみの合成を可能にする。主観的および客観的評価は、単調なベースライン上での競合音声品質とジェスチャー生成の改善を示す。

関連論文リスト

MIBURI: Towards Expressive Interactive Gesture Synthesis [62.45332399212876]
Embodied Conversational Agents (ECA) は、音声、ジェスチャー、表情を通じて人間の対面相互作用をエミュレートすることを目的としている。既存のECAの解は、人間のような相互作用には適さない剛性で低多様性の運動を生み出す。 MIBURIは,リアルタイム音声対話と同期した表現力のあるフルボディジェスチャーと表情を生成するための,最初のオンライン因果的フレームワークである。
論文参考訳（メタデータ） (2026-03-03T18:59:51Z)
CoordSpeaker: Exploiting Gesture Captioning for Coordinated Caption-Empowered Co-Speech Gesture Generation [44.84719308595376]
CoordSpeakerは、協調キャプションを組み込んだ音声合成を可能にする包括的なフレームワークである。本手法は,音声とリズミカルに同期した高品質なジェスチャーと,任意のキャプションとセマンティックに協調したジェスチャーを生成する。
論文参考訳（メタデータ） (2025-11-28T03:38:08Z)
ImaGGen: Zero-Shot Generation of Co-Speech Semantic Gestures Grounded in Language and Image Input [0.0]
本稿では, 音声合成における中核的な課題として, 言語発話にセマンティックに一貫性のある, 象徴的, あるいは難解なジェスチャーを生成することを挙げる。我々は、与えられた言語入力からジェスチャーを生成するゼロショットシステムを導入し、さらに手動のアノテーションや人間の介入なしに、想像的な入力によって通知される。本結果は,表現的かつ協調的な仮想エージェントやアバターを作成する上で,文脈認識型セマンティックジェスチャの重要性を強調した。
論文参考訳（メタデータ） (2025-10-20T15:01:56Z)
MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文参考訳（メタデータ） (2025-10-01T04:32:37Z)
Towards Efficient Speech-Text Jointly Decoding within One Speech Language Model [76.06585781346601]
音声言語モデル(Speech LMs)は、単一のモデル内でエンドツーエンドの音声テキストモデリングを可能にする。音声テキストの共同復号パラダイムの選択は、性能、効率、アライメント品質において重要な役割を担っている。
論文参考訳（メタデータ） (2025-06-04T23:53:49Z)
Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文参考訳（メタデータ） (2024-06-26T04:53:11Z)
CoVoMix: Advancing Zero-Shot Speech Generation for Human-like Multi-talker Conversations [97.75037148056367]
CoVoMixは、ゼロショット、人間ライク、マルチスピーカー、マルチラウンド対話音声生成のための新しいモデルである。対話モデリングと生成の有効性を測定するための総合的なメトリクスセットを考案する。
論文参考訳（メタデータ） (2024-04-10T02:32:58Z)
ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文参考訳（メタデータ） (2024-03-26T17:59:52Z)
Unified speech and gesture synthesis using flow matching [24.2094371314481]
本稿では,テキストから音声とスケルトンに基づく3次元ジェスチャーを共同で合成するための,新しい統一アーキテクチャを提案する。提案したアーキテクチャは,従来の技術よりもシンプルで,メモリフットプリントが小さく,音声とジェスチャーの同時分布を捉えることができる。
論文参考訳（メタデータ） (2023-10-08T14:37:28Z)
EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文参考訳（メタデータ） (2023-08-10T17:41:19Z)
QPGesture: Quantization-Based and Phase-Guided Motion Matching for Natural Speech-Driven Gesture Generation [8.604430209445695]
音声によるジェスチャー生成は、人間の動きのランダムなジッタのため、非常に困難である。本稿では,新しい量子化に基づく位相誘導型モーションマッチングフレームワークを提案する。本手法は,音声によるジェスチャー生成における近年の手法よりも優れている。
論文参考訳（メタデータ） (2023-05-18T16:31:25Z)
Zero-Shot Long-Form Voice Cloning with Dynamic Convolution Attention [0.0]
本稿では,数秒間の参照音声からターゲット音声を再生可能な,注意に基づく音声合成システムを提案する。長期発話への一般化は、ダイナミック・コンボリューション・アテンション(Dynamic Convolution Attention)と呼ばれるエネルギーベースのアテンション機構を用いて実現される。音声の自然性、話者の類似性、アライメントの整合性、長い発話を合成する能力などの観点から、音声クローニングシステムの実装を比較した。
論文参考訳（メタデータ） (2022-01-25T15:06:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。