Fugu-MT 論文翻訳(概要): UniTAF: A Modular Framework for Joint Text-to-Speech and Audio-to-Face Modeling

論文の概要: UniTAF: A Modular Framework for Joint Text-to-Speech and Audio-to-Face Modeling

arxiv url: http://arxiv.org/abs/2602.15651v1
Date: Tue, 17 Feb 2026 15:20:30 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-18 16:03:18.1075
Title: UniTAF: A Modular Framework for Joint Text-to-Speech and Audio-to-Face Modeling
Title（参考訳）: UniTAF: 音声と音声の同時モデリングのためのモジュールフレームワーク
Authors: Qiangong Zhou, Nagasaka Tomohiro,
Abstract要約: この作業では、2つの独立したモデルであるTSとA2Fを統合モデルに統合し、内部的特徴伝達を可能にする。また,TTSから関節モデルへの感情制御機構の拡張についても論じる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work considers merging two independent models, TTS and A2F, into a unified model to enable internal feature transfer, thereby improving the consistency between audio and facial expressions generated from text. We also discuss the extension of the emotion control mechanism from TTS to the joint model. This work does not aim to showcase generation quality; instead, from a system design perspective, it validates the feasibility of reusing intermediate representations from TTS for joint modeling of speech and facial expressions, and provides engineering practice references for subsequent speech expression co-design. The project code has been open source at: https://github.com/GoldenFishes/UniTAF
Abstract（参考訳）: 本研究は、2つの独立したモデルであるTSとA2Fを統合モデルに統合し、内部的特徴伝達を可能にすることにより、テキストから生成された音声と表情の整合性を改善することを検討する。また,TTSから関節モデルへの感情制御機構の拡張についても論じる。この研究は、生成品質を示すことではなく、システム設計の観点から、音声と表情の共同モデリングのためのTSから中間表現を再利用する可能性を検証し、その後の表現の共設計のための工学的実践参照を提供する。プロジェクトコードは、https://github.com/GoldenFishes/UniTAFでオープンソース化された。

関連論文リスト

Shared Latent Representation for Joint Text-to-Audio-Visual Synthesis [57.5830191022097]
Text-to-VecモジュールはテキストからWav2Vec2埋め込みを生成する。 We adopt a two-stage training: Pretraining on Wav2Vec2 embeddeddings and finetuning on TTS outputs。実験により、TS予測潜伏特性の条件付けはカスケードパイプラインよりも優れていることが示された。
論文参考訳（メタデータ） (2025-11-07T17:07:56Z)
OmniTalker: One-shot Real-time Text-Driven Talking Audio-Video Generation With Multimodal Style Mimicking [22.337906095079198]
我々はOmniTalkerについて述べる。OmniTalkerは、入力テキストから同期音声ビデオコンテンツを共同で生成する統合フレームワークである。本フレームワークは,2分岐拡散変換器(DiT)アーキテクチャを採用し,一方は音声生成に,もう一方はビデオ合成に用いている。
論文参考訳（メタデータ） (2025-04-03T09:48:13Z)
The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation [53.837937703425794]
LanDiffは、自己回帰言語モデルと拡散モデルの強みを相乗化するハイブリッドフレームワークである。本アーキテクチャでは,(1)効率的なセマンティック圧縮により3次元視覚特徴をコンパクトな1次元表現に圧縮するセマンティック・トークンー,(2)高レベルのセマンティックな関係を持つセマンティック・トークンを生成する言語モデル,(3)粗いセマンティクスを高忠実なビデオに洗練するストリーミング拡散モデルを紹介する。
論文参考訳（メタデータ） (2025-03-06T16:53:14Z)
Large Generative Model-assisted Talking-face Semantic Communication System [55.42631520122753]
本研究では,LGM-TSC(Large Generative Model-assisted Talking-face Semantic Communication)システムを提案する。送信機のジェネレーティブセマンティック・エクストラクタ(GSE)は、意味的にスパースな音声映像を高情報密度のテキストに変換する。意味的曖昧さと修正のためのLarge Language Model (LLM)に基づくPrivate Knowledge Base (KB)。 BERT-VITS2とSadTalkerモデルを用いた生成意味再構成(GSR)により、テキストを高QoE音声ビデオに変換する。
論文参考訳（メタデータ） (2024-11-06T12:45:46Z)
Zero-Shot Voice Conversion via Content-Aware Timbre Ensemble and Conditional Flow Matching [7.151257248661491]
CTEFM-VCは、コンテント対応の音色アンサンブルモデリングと条件付きフローマッチングを統合するフレームワークである。 CTEFM-VCは、話者の類似性、音声の自然性、および知性を評価するすべての指標において、常に最高の性能を達成している。
論文参考訳（メタデータ） (2024-11-04T12:23:17Z)
OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling [80.85164509232261]
モダリティ共有型1-tower変換器上に構築された最小限の参照フレームワークであるOneRefを提案する。参照関係をモデル化するために,マスク参照モデリング(MRefM)と呼ばれる新しいMVLMパラダイムを導入する。 MRefM内では,参照型動的画像マスキング戦略を提案し,参照領域を認識した。
論文参考訳（メタデータ） (2024-10-10T15:18:19Z)
JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to Speech [7.476901945542385]
本稿では、簡易な訓練パイプラインを持ち、個別に学習したモデルのカスケードを上回り、エンドツーエンドのテキスト音声合成(E2E-TTS)モデルを提案する。提案モデルでは,アライメントモジュールを用いたFastSpeech2とHiFi-GANを併用する。 LJSpeechコーパスの実験では、提案されたモデルはESPNet2-TTSの最先端実装よりも優れていた。
論文参考訳（メタデータ） (2022-03-31T07:25:11Z)
FastPitchFormant: Source-filter based Decomposed Modeling for Speech Synthesis [6.509758931804479]
ソースフィルタ理論に基づいて設計したフィードフォワード変換器を用いたTSモデルを提案する。 FastPitchFormantには、テキストと音響機能を並列に扱うユニークな構造がある。
論文参考訳（メタデータ） (2021-06-29T07:06:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。