論文の概要: AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation
- arxiv url: http://arxiv.org/abs/2504.20629v1
- Date: Tue, 29 Apr 2025 10:56:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.853381
- Title: AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation
- Title(参考訳): AlignDiT:同期音声生成のための多モード配向拡散変換器
- Authors: Jeongsoo Choi, Ji-Hoon Kim, Kim Sung-Bin, Tae-Hyun Oh, Joon Son Chung,
- Abstract要約: マルチモーダル・トゥ・音声タスクは、映画製作、ダビング、仮想アバターなど、幅広い応用によって注目を集めている。
既存の手法は、音声の了解性、音声とビデオの同期、音声の自然さ、および参照話者との音声類似性の制限に悩まされている。
本稿では,アライメントされたマルチモーダル入力から正確な,同期化,自然な音声を生成するマルチモーダルアラインド拡散変換器AlignDiTを提案する。
- 参考スコア(独自算出の注目度): 41.74261260212531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the task of multimodal-to-speech generation, which aims to synthesize high-quality speech from multiple input modalities: text, video, and reference audio. This task has gained increasing attention due to its wide range of applications, such as film production, dubbing, and virtual avatars. Despite recent progress, existing methods still suffer from limitations in speech intelligibility, audio-video synchronization, speech naturalness, and voice similarity to the reference speaker. To address these challenges, we propose AlignDiT, a multimodal Aligned Diffusion Transformer that generates accurate, synchronized, and natural-sounding speech from aligned multimodal inputs. Built upon the in-context learning capability of the DiT architecture, AlignDiT explores three effective strategies to align multimodal representations. Furthermore, we introduce a novel multimodal classifier-free guidance mechanism that allows the model to adaptively balance information from each modality during speech synthesis. Extensive experiments demonstrate that AlignDiT significantly outperforms existing methods across multiple benchmarks in terms of quality, synchronization, and speaker similarity. Moreover, AlignDiT exhibits strong generalization capability across various multimodal tasks, such as video-to-speech synthesis and visual forced alignment, consistently achieving state-of-the-art performance. The demo page is available at https://mm.kaist.ac.kr/projects/AlignDiT .
- Abstract(参考訳): 本稿では,テキスト,ビデオ,参照音声といった複数の入力モードから高品質な音声を合成することを目的としたマルチモーダル音声生成の課題に対処する。
この課題は、映画製作、ダビング、仮想アバターなど幅広い用途で注目されている。
近年の進歩にもかかわらず、既存の手法は、音声の了解性、音声とビデオの同期、音声の自然性、および参照話者との音声類似性の制限に悩まされている。
これらの課題に対処するために,アラインディフュージョン変換器のAlignDiTを提案する。
DiTアーキテクチャのコンテキスト内学習能力に基づいて、AlignDiTはマルチモーダル表現を調整するための3つの効果的な戦略を模索している。
さらに,モデルが音声合成中に各モーダルからの情報を適応的にバランスさせることのできる,新しいマルチモーダル分類器フリー誘導機構を導入する。
大規模な実験により、AlignDiTは、品質、同期、話者類似性という点で、複数のベンチマークで既存のメソッドを著しく上回ります。
さらに、AlignDiTは、ビデオ音声合成や視覚強制アライメントなど、様々なマルチモーダルタスクにまたがる強力な一般化能力を示し、常に最先端のパフォーマンスを実現している。
デモページはhttps://mm.kaist.ac.kr/projects/AlignDiT で公開されている。
関連論文リスト
- From Faces to Voices: Learning Hierarchical Representations for High-quality Video-to-Speech [26.67378997911053]
本研究の目的は、サイレント・トーキング・フェイス・ビデオから高品質な音声を生成することである。
本稿では,サイレントビデオと多面音声のモダリティギャップを埋める新しい音声合成システムを提案する。
提案手法は,実発話に匹敵する例外的な生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-21T09:02:38Z) - HOP: Heterogeneous Topology-based Multimodal Entanglement for Co-Speech Gesture Generation [42.30003982604611]
共同音声ジェスチャーは、人間のコミュニケーションにおける音声の明瞭さと歩みを高める重要な非言語的手がかりである。
ジェスチャー動作, 音声リズム, テキストセマンティクスのヘテロジニアスな絡み合いを捕捉し, 共同音声ジェスチャ生成のためのHOPという新しい手法を提案する。
HOPは、より自然で表現力のある共同音声ジェスチャ生成を提供する最先端技術を実現している。
論文 参考訳(メタデータ) (2025-03-03T04:47:39Z) - Unispeaker: A Unified Approach for Multimodality-driven Speaker Generation [66.49076386263509]
本稿では,マルチモーダリティ駆動型話者生成のための統一的アプローチであるUniSpeakerを紹介する。
KV-Formerに基づく統一音声アグリゲータを提案し、多様な音声記述のモダリティを共有音声空間にマッピングするためにソフトコントラストロスを適用した。
UniSpeakerはMVCベンチマークを用いて5つのタスクで評価され、実験結果により、UniSpeakerは従来のモダリティ固有のモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-01-11T00:47:29Z) - DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation [54.30327187663316]
DiTCtrlは、MM-DiTアーキテクチャの下で初めてトレーニング不要なマルチプロンプトビデオ生成手法である。
MM-DiTの注意機構を解析し、3次元のフルアテンションがUNetのような拡散モデルにおけるクロス/セルフアテンションブロックと同様の振る舞いを示す。
我々の注意深い設計に基づいて、DiTCtrlによって生成されたビデオは、複数のシーケンシャルプロンプトが与えられた滑らかな遷移と一貫した物体の動きを達成する。
論文 参考訳(メタデータ) (2024-12-24T18:51:19Z) - Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis [13.702423348269155]
本稿では,VTTSのビデオから音声を生成するタスクを提案し,マルチモーダル音声生成のための新しい手法を提案する。
本稿では,このタスクをビザトロニクスと呼ぶデコーダのみのマルチモーダルモデルを提案する。
視覚、テキスト、音声を直接トランスフォーマーモデルの共通部分空間に埋め込み、自己回帰的損失を用いて、話者ビデオや音声の書き起こしに条件付けられた離散化メル-スペクトログラムの生成モデルを学ぶ。
論文 参考訳(メタデータ) (2024-11-26T18:57:29Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - VioLA: Unified Codec Language Models for Speech Recognition, Synthesis,
and Translation [91.39949385661379]
VioLAは1つの自動回帰トランスフォーマーデコーダのみのネットワークで、音声とテキストを含む様々なモーダルタスクを統合する。
まず、オフラインのニューラルエンコーダを用いて、全ての発話を個別のトークンに変換する。
さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
論文 参考訳(メタデータ) (2023-05-25T14:39:47Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Multi Modal Adaptive Normalization for Audio to Video Generation [18.812696623555855]
本稿では,音声信号と人物の単一画像とを入力として,任意の長さの人物映像を合成するマルチモーダル適応正規化(MAN)アーキテクチャを提案する。
このアーキテクチャでは,マルチモーダル適応正規化,キーポイントヒートマップ予測器,光フロー予測器,およびクラスアクティベーションマップ[58]ベースのレイヤを用いて,表情成分の動きを学習する。
論文 参考訳(メタデータ) (2020-12-14T07:39:45Z) - MultiSpeech: Multi-Speaker Text to Speech with Transformer [145.56725956639232]
Transformer-based text to speech (TTS)モデル(Transformer TTSciteli 2019neural, FastSpeechciteren 2019fastspeech)は、RNNベースのモデルよりもトレーニングと推論効率の利点を示している。
我々はMultiSpeechと呼ばれる堅牢で高品質なマルチスピーカトランスフォーマーTSシステムを開発した。
論文 参考訳(メタデータ) (2020-06-08T15:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。