Fugu-MT 論文翻訳(概要): EARTalking: End-to-end GPT-style Autoregressive Talking Head Synthesis with Frame-wise Control

論文の概要: EARTalking: End-to-end GPT-style Autoregressive Talking Head Synthesis with Frame-wise Control

arxiv url: http://arxiv.org/abs/2603.20307v1
Date: Thu, 19 Mar 2026 15:15:17 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-24 19:11:38.824939
Title: EARTalking: End-to-end GPT-style Autoregressive Talking Head Synthesis with Frame-wise Control
Title（参考訳）: EARTalking:フレームワイズ制御によるGPTスタイルの自己回帰音声ヘッド合成
Authors: Yuzhe Weng, Haotian Wang, Yuanhong Yu, Jun Du, Shan He, Xiaoyan Wu, Haoran Xu,
Abstract要約: EARTalkingは、対話型音声駆動音声ヘッド生成のためのエンドツーエンドのGPTスタイルの自動回帰モデルである。本稿では,新しいフレーム・バイ・フレーム・イン・コンテクスト,音声駆動型ストリーミング生成パラダイムを提案する。
参考スコア（独自算出の注目度）: 21.55778391698485
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Audio-driven talking head generation aims to create vivid and realistic videos from a static portrait and speech. Existing AR-based methods rely on intermediate facial representations, which limit their expressiveness and realism. Meanwhile, diffusion-based methods generate clip-by-clip, lacking fine-grained control and causing inherent latency due to overall denoising across the window. To address these limitations, we propose EARTalking, a novel end-to-end, GPT-style autoregressive model for interactive audio-driven talking head generation. Our method introduces a novel frame-by-frame, in-context, audio-driven streaming generation paradigm. For inherently supporting variable-length video generation with identity consistency, we propose the Sink Frame Window Attention (SFA) mechanism. Furthermore, to avoid the complex, separate networks that prior works required for diverse control signals, we propose a streaming Frame Condition In-Context (FCIC) scheme. This scheme efficiently injects diverse control signals in a streaming, in-context manner, enabling interactive control at every frame and at arbitrary moments. Experiments demonstrate that EARTalking outperforms existing autoregressive methods and achieves performance comparable to diffusion-based methods. Our work demonstrates the feasibility of in-context streaming autoregressive control, unlocking a scalable direction for flexible, efficient generation. The code will be released for reproducibility.
Abstract（参考訳）: 音声駆動音声ヘッド生成は、静的なポートレートと音声から鮮明でリアルなビデオを作成することを目的としている。既存のARベースの手法は、表現力とリアリズムを制限する中間的な顔表現に依存している。一方、拡散に基づく手法ではクリップ・バイ・クリップが生成され、微粒な制御が欠如し、ウィンドウ全体の遅延が発生している。これらの制約に対処するために、対話型音声駆動音声ヘッド生成のための新しいエンドツーエンドのGPTスタイルの自動回帰モデルEARTalkingを提案する。本稿では,新しいフレーム・バイ・フレーム・イン・コンテクスト,音声駆動ストリーミング生成パラダイムを提案する。 Sink Frame Window Attention (SFA) 機構を提案する。さらに,様々な制御信号に先行して動作する複雑なネットワークを避けるために,FCIC方式を提案する。このスキームは、ストリーミング・イン・コンテキスト方式で多様な制御信号を効率よく注入し、各フレームと任意のタイミングで対話的な制御を可能にする。 EARTalkingは既存の自己回帰的手法より優れ、拡散に基づく手法に匹敵する性能を発揮することを示す実験である。我々の研究は、フレキシブルで効率的な生成のためのスケーラブルな方向を解放する、コンテキスト内ストリーミング自動回帰制御の実現可能性を示している。コードは再現性のためにリリースされます。

関連論文リスト

DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation [23.171175300622675]
制御可能な人中心オーディオビデオ生成のための統一的なフレームワークを提案する。 DreamID-Omniは、ビデオ、オーディオ、オーディオ・ビジュアルの一貫性をまたいだ総合的な最先端のパフォーマンスを実現する。学術研究と商用レベルのアプリケーションの間のギャップを埋めるために、コードを公開します。
論文参考訳（メタデータ） (2026-02-12T16:41:52Z)
DEMO: Disentangled Motion Latent Flow Matching for Fine-Grained Controllable Talking Portrait Synthesis [15.304037069236536]
DEMOは、音声駆動型トーキングヘッドビデオ合成のためのフローマッチング生成フレームワークである。唇の動き、頭部のポーズ、視線を高度に制御する。
論文参考訳（メタデータ） (2025-10-12T15:10:33Z)
InfiniteTalk: Audio-driven Video Generation for Sparse-Frame Video Dubbing [66.48064661467781]
我々は、アイデンティティ、象徴的なジェスチャー、カメラ軌跡を維持するために参照を戦略的に保存する新しいパラダイムであるスパースフレームビデオダビングを導入する。無限長長列ダビング用に設計されたストリーミングオーディオ駆動型ジェネレータであるInfiniteTalkを提案する。 HDTF、CelebV-HQ、EMTDデータセットの総合評価は、最先端の性能を示している。
論文参考訳（メタデータ） (2025-08-19T17:55:23Z)
READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-08-05T13:57:03Z)
Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling [76.23539797803681]
既存の手法は主に、自然なストリーミング音声合成を実現するために、将来のテキストに依存するルックメカニズムを使用している。本稿では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークLEを提案する。実験結果から,LEは現行のストリーミングTTS法より優れ,文レベルのTSシステムよりも高い性能を実現していることがわかった。
論文参考訳（メタデータ） (2025-05-26T08:25:01Z)
OmniTalker: One-shot Real-time Text-Driven Talking Audio-Video Generation With Multimodal Style Mimicking [22.337906095079198]
我々はOmniTalkerについて述べる。OmniTalkerは、入力テキストから同期音声ビデオコンテンツを共同で生成する統合フレームワークである。本フレームワークは,2分岐拡散変換器(DiT)アーキテクチャを採用し,一方は音声生成に,もう一方はビデオ合成に用いている。
論文参考訳（メタデータ） (2025-04-03T09:48:13Z)
SayAnything: Audio-Driven Lip Synchronization with Conditional Video Diffusion [78.77211425667542]
SayAnythingは、オーディオ入力から唇の動きを直接合成する条件付きビデオ拡散フレームワークである。我々の新しい設計は、潜在空間における異なる条件信号のバランスを効果的に保ち、外観、動き、地域固有の生成を正確に制御できる。
論文参考訳（メタデータ） (2025-02-17T07:29:36Z)
Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation [41.292644854306594]
DiffGesture (DiffGesture) という,拡散に基づく新しいフレームワークを提案する。 DiffGestureは、より優れたモードカバレッジとより強力なオーディオ相関を備えたコヒーレントなジェスチャーをレンダリングする、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-03-16T07:32:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。