論文の概要: JAM-Flow: Joint Audio-Motion Synthesis with Flow Matching
- arxiv url: http://arxiv.org/abs/2506.23552v1
- Date: Mon, 30 Jun 2025 06:51:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.945619
- Title: JAM-Flow: Joint Audio-Motion Synthesis with Flow Matching
- Title(参考訳): JAM-Flow:フローマッチングを用いた共同音声移動合成
- Authors: Mingi Kwon, Joonghyuk Shin, Jaeseok Jung, Jaesik Park, Youngjung Uh,
- Abstract要約: JAM-Flowは、顔の動きと音声の両方を同時に合成し、条件付けするための統合されたフレームワークである。
テキスト、参照オーディオ、参照モーションファシリテーションタスクを含む、幅広い条件入力をサポートする。
- 参考スコア(独自算出の注目度): 30.02208748898321
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The intrinsic link between facial motion and speech is often overlooked in generative modeling, where talking head synthesis and text-to-speech (TTS) are typically addressed as separate tasks. This paper introduces JAM-Flow, a unified framework to simultaneously synthesize and condition on both facial motion and speech. Our approach leverages flow matching and a novel Multi-Modal Diffusion Transformer (MM-DiT) architecture, integrating specialized Motion-DiT and Audio-DiT modules. These are coupled via selective joint attention layers and incorporate key architectural choices, such as temporally aligned positional embeddings and localized joint attention masking, to enable effective cross-modal interaction while preserving modality-specific strengths. Trained with an inpainting-style objective, JAM-Flow supports a wide array of conditioning inputs-including text, reference audio, and reference motion-facilitating tasks such as synchronized talking head generation from text, audio-driven animation, and much more, within a single, coherent model. JAM-Flow significantly advances multi-modal generative modeling by providing a practical solution for holistic audio-visual synthesis. project page: https://joonghyuk.com/jamflow-web
- Abstract(参考訳): 顔の動きと音声との本質的なリンクは、音声合成と音声合成(TTS)が通常別のタスクとして扱われるジェネレーティブ・モデリングにおいて、しばしば見過ごされる。
本稿では,顔の動きと音声を同時に合成・条件づけする統合フレームワークであるJAM-Flowを紹介する。
提案手法は,フローマッチングと新しい多モード拡散変換器(MM-DiT)アーキテクチャを活用し,特殊なMotion-DiTモジュールとAudio-DiTモジュールを統合する。
これらは選択的な共同注意層を介して結合され、時間的に整列された位置埋め込みや局所的な共同注意マスキングといった重要なアーキテクチャ選択が組み込まれ、モダリティ固有の強度を維持しながら効果的な相互モーダル相互作用を可能にする。
JAM-Flowは、インペインティングスタイルの目的で訓練され、テキスト、参照オーディオ、テキストからのシンクロナイズドトーキングヘッド生成やオーディオ駆動アニメーションなどの参照モーションファシリテートタスクを含む、幅広い条件付き入力をサポートする。
JAM-Flowは、総合的な音声視覚合成のための実用的なソリューションを提供することで、マルチモーダル生成モデリングを大幅に進歩させる。
プロジェクトページ:https://joonghyuk.com/jamflow-web
関連論文リスト
- Stream-Omni: Simultaneous Multimodal Interactions with Large Language-Vision-Speech Model [43.533849239738394]
Stream-Omniは、効率的なモダリティアライメントを備えた大きな言語ビジョン音声モデルである。
様々なモダリティの組み合わせの下での相互作用を同時にサポートすることができる。
視覚的理解、音声対話、および視覚的な音声対話タスクにおいて、高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-16T16:06:45Z) - Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling [76.23539797803681]
既存の手法は主に、自然なストリーミング音声合成を実現するために、将来のテキストに依存するルックメカニズムを使用している。
本稿では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークLEを提案する。
実験結果から,LEは現行のストリーミングTTS法より優れ,文レベルのTSシステムよりも高い性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-26T08:25:01Z) - OmniTalker: One-shot Real-time Text-Driven Talking Audio-Video Generation With Multimodal Style Mimicking [22.337906095079198]
我々はOmniTalkerについて述べる。OmniTalkerは、入力テキストから同期音声ビデオコンテンツを共同で生成する統合フレームワークである。
本フレームワークは,2分岐拡散変換器(DiT)アーキテクチャを採用し,一方は音声生成に,もう一方はビデオ合成に用いている。
論文 参考訳(メタデータ) (2025-04-03T09:48:13Z) - CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models [74.80386066714229]
改良されたストリーミング音声合成モデルCosyVoice 2を提案する。
具体的には,音声トークンのコードブック利用を改善するために,有限スカラー量子化を導入する。
我々は,様々な合成シナリオをサポートするために,チャンク対応因果フローマッチングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-13T12:59:39Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z) - Unified speech and gesture synthesis using flow matching [24.2094371314481]
本稿では,テキストから音声とスケルトンに基づく3次元ジェスチャーを共同で合成するための,新しい統一アーキテクチャを提案する。
提案したアーキテクチャは,従来の技術よりもシンプルで,メモリフットプリントが小さく,音声とジェスチャーの同時分布を捉えることができる。
論文 参考訳(メタデータ) (2023-10-08T14:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。