論文の概要: PersonaGesture: Single-Reference Co-Speech Gesture Personalization for Unseen Speakers
- arxiv url: http://arxiv.org/abs/2605.06064v1
- Date: Thu, 07 May 2026 11:48:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.737092
- Title: PersonaGesture: Single-Reference Co-Speech Gesture Personalization for Unseen Speakers
- Title(参考訳): ペルソナジェスチャー:見知らぬ話者のための単一参照音声同時ジェスチャーパーソナライゼーション
- Authors: Xiangyue Zhang, Yiyi Cai, Kunhang Li, Kaixing Yang, You Zhou, Zhengqing Li, Xuangeng Chu, Jiaxu Zhang, Haiyang Liu,
- Abstract要約: PersonaGesture(ペルソナゲスチャ)は、未確認話者の単一参照音声ジェスチャーパーソナライズのためのパイプラインである。
Adaptive Style Infusion (ASI) と Implicit Distribution Rectification Rectification (IDR) の2つの重要なコンポーネントは、時間的同一性証拠を残留統計学的補正から分離している。
実験により,デノナイジング時の話者記憶を保守的なモーメント修正から切り離すことで,崩壊したスタイルコードよりも不明瞭な話者のパーソナライゼーションが向上することが示された。
- 参考スコア(独自算出の注目度): 13.355084498116193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose PersonaGesture, a diffusion-based pipeline for single-reference co-speech gesture personalization of unseen speakers. Given target speech and one motion clip from a new speaker, the model must synthesize gestures that follow the new utterance while retaining speaker-specific pose choices, without per-speaker optimization. This setting is useful for avatars and virtual agents, but it is hard because the reference mixes stable speaker habits with utterance-specific trajectories. PersonaGesture consists of two key components, Adaptive Style Infusion (ASI) and Implicit Distribution Rectification (IDR), to separate temporal identity evidence from residual statistic correction. A Style Perceiver first encodes the variable-length reference into compact speaker-memory tokens. ASI injects these tokens into denoising through zero-initialized residual cross-attention, enabling style evidence to affect motion formation without replacing the pretrained speech-to-motion prior. Building on this, IDR applies a length-aware diagonal affine map in latent space to correct residual channel-wise moments estimated from the same reference. Across BEAT2 and ZeroEGGS, we evaluate quantitative metrics, reference-identity controls, same-audio diagnostics, qualitative comparisons, and human preference. Experiments show that separating denoising-time speaker memory from conservative post-generation moment correction improves unseen-speaker personalization over collapsed style codes, full-reference attention, and one-clip finetuning. Project: https://xiangyue-zhang.github.io/PersonaGesture.
- Abstract(参考訳): 本稿では,未確認話者の単一参照音声ジェスチャーパーソナライズのための拡散に基づくパイプラインであるPersonaGestureを提案する。
ターゲット音声と新しい話者からの1つのモーションクリップが与えられた場合、モデルは、話者ごとの最適化なしに、話者固有のポーズ選択を維持しながら、新しい発話に従うジェスチャーを合成する必要がある。
この設定はアバターや仮想エージェントに役立ちますが、参照は安定した話者習慣と発話固有の軌道を混在させるため難しいです。
PersonaGestureは2つの重要なコンポーネント、Adaptive Style Infusion (ASI) と Implicit Distribution Rectification (IDR) から構成され、時間的同一性証拠を残留統計学的補正から分離する。
Style Perceiverは、まず可変長参照をコンパクトな話者メモリトークンにエンコードする。
ASIは、これらのトークンをゼロ初期化された残差注意を通して認知させ、事前訓練された音声から動きへの置き換えなしに、スタイルエビデンスが運動形成に影響を与えることを可能にする。
この上に構築されたIDRは、同じ基準から推定される残留チャネルワイドモーメントを補正するために、潜時空間に長さ対応の対角アフィン写像を適用する。
BEAT2 と ZeroEGGS 全体で,定量的指標,参照同一性制御,同音異性診断,質的比較,人的嗜好を評価した。
実験により, 退化時話者記憶と保守後モーメント補正の分離は, 崩壊したスタイルコード, フルレファレンス, ワンクリックファインタニングよりも, 目に見えない話者のパーソナライゼーションを改善することが示された。
プロジェクト: https://xiangyue-zhang.github.io/PersonaGesture.com
関連論文リスト
- ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA [63.95311560556552]
既存のビデオパーソナライズ手法は、視覚的類似性を保ちながら、ビデオとオーディオを別々に扱う。
被験者の外観と音声を1つのモデルで共同生成するID-LoRAを提案する。
人間の嗜好研究において、ID-LoRA は Kling 2.6 Pro よりも 73% のアノテータが音声に類似し、65% が話し方で好まれる。
論文 参考訳(メタデータ) (2026-03-10T22:23:36Z) - Assessing Identity Leakage in Talking Face Generation: Metrics and Evaluation Framework [56.30142869506262]
塗り絵ベースの話し顔生成は、唇の動きだけを変更しながらポーズ、照明、ジェスチャーなどの映像の詳細を保存することを目的としている。
この機構は、生成した唇が、駆動オーディオのみの影響ではなく、参照画像の影響を受けるリップリークを導入することができる。
そこで本研究では,唇の漏れを分析し定量化するためのシステム評価手法を提案する。
論文 参考訳(メタデータ) (2025-11-05T17:11:53Z) - Speaker Embeddings to Improve Tracking of Intermittent and Moving Speakers [53.12031345322412]
話者埋め込みを用いた個人識別再割り当て後追跡を提案する。
ビームフォーミングは、話者埋め込みを計算するために、話者の位置に対する信号を強化するために使用される。
不活発な期間に話者の位置が変化するデータセット上で,提案した話者埋め込みに基づくアイデンティティ再割り当て手法の性能を評価する。
論文 参考訳(メタデータ) (2025-06-23T13:02:20Z) - SoloSpeech: Enhancing Intelligibility and Quality in Target Speech Extraction through a Cascaded Generative Pipeline [38.17669452829079]
SoloSpeechは、圧縮、抽出、再構築、修正プロセスを統合するカスケード生成パイプラインである。
ドメイン外データと実世界のシナリオに例外的な一般化を示しながら、ターゲット音声抽出における新たな最先端の知性および品質を実現する。
論文 参考訳(メタデータ) (2025-05-25T21:00:48Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - Directed Speech Separation for Automatic Speech Recognition of Long Form
Conversational Speech [10.291482850329892]
混合信号から直接抽出した話者埋め込みに基づいて訓練された話者条件付きセパレータを提案する。
また,会話データに対する単語誤り率 (WER) の大幅な改善を実現した。
論文 参考訳(メタデータ) (2021-12-10T23:07:48Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。