Fugu-MT 論文翻訳(概要): Autoregressive GAN for Semantic Unconditional Head Motion Generation

論文の概要: Autoregressive GAN for Semantic Unconditional Head Motion Generation

arxiv url: http://arxiv.org/abs/2211.00987v2
Date: Mon, 17 Apr 2023 09:45:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-18 23:24:08.051554
Title: Autoregressive GAN for Semantic Unconditional Head Motion Generation
Title（参考訳）: セマンティックな無条件頭部運動生成のための自己回帰型GAN
Authors: Louis Airale (M-PSI, ROBOTLEARN), Xavier Alameda-Pineda (ROBOTLEARN), St\'ephane Lathuili\`ere (IP Paris, IDS, MM), Dominique Vaufreydaz (M-PSI)
Abstract要約: 低エラー蓄積レベルを維持しつつ、長時間にわたってリッチなヘッドモーションシーケンスを合成することを学ぶGANベースのアーキテクチャを考案する。提案手法の妥当性を実験的に検証し、類似タスクにおける最先端性能を達成したモデルと比較して、その優位性を示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we address the task of unconditional head motion generation to animate still human faces in a low-dimensional semantic space from a single reference pose. Different from traditional audio-conditioned talking head generation that seldom puts emphasis on realistic head motions, we devise a GAN-based architecture that learns to synthesize rich head motion sequences over long duration while maintaining low error accumulation levels.In particular, the autoregressive generation of incremental outputs ensures smooth trajectories, while a multi-scale discriminator on input pairs drives generation toward better handling of high- and low-frequency signals and less mode collapse.We experimentally demonstrate the relevance of the proposed method and show its superiority compared to models that attained state-of-the-art performances on similar tasks.
Abstract（参考訳）: 本研究では,無条件頭部運動生成の課題を,単一基準ポーズから低次元意味空間における静止人間の顔をアニメーション化する。 Different from traditional audio-conditioned talking head generation that seldom puts emphasis on realistic head motions, we devise a GAN-based architecture that learns to synthesize rich head motion sequences over long duration while maintaining low error accumulation levels.In particular, the autoregressive generation of incremental outputs ensures smooth trajectories, while a multi-scale discriminator on input pairs drives generation toward better handling of high- and low-frequency signals and less mode collapse.We experimentally demonstrate the relevance of the proposed method and show its superiority compared to models that attained state-of-the-art performances on similar tasks.

関連論文リスト

Fast Autoregressive Models for Continuous Latent Generation [49.079819389916764]
自己回帰モデルは、特にNLPにおいて、シーケンシャルなデータ生成において顕著な成功を収めている。最近の研究で、マスク付き自己回帰モデル(MAR)は拡散ヘッドを用いて連続空間内のトーケン分布をモデル化することによって量子化をバイパスする。本稿では,MARの拡散ヘッドを軽量ショートカットヘッドに置き換える新しいフレームワークであるFast AutoRegressive Model (FAR)を提案する。
論文参考訳（メタデータ） (2025-04-24T13:57:08Z)
ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。 Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文参考訳（メタデータ） (2025-03-27T16:39:40Z)
Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis [27.43583075023949]
Dittoは拡散型トーキングヘッドフレームワークで、きめ細かい制御とリアルタイム推論を可能にする。我々は,Dittoが魅力的な音声ヘッドビデオを生成し,制御性とリアルタイム性能の両面で優位性を示すことを示す。
論文参考訳（メタデータ） (2024-11-29T07:01:31Z)
Landmark-guided Diffusion Model for High-fidelity and Temporally Coherent Talking Head Generation [22.159117464397806]
本稿では2段階拡散モデルを提案する。第1段階では、与えられた音声に基づいて、同期された顔のランドマークを生成する。第二段階では、これらの生成されたランドマークは、口のジッタ問題を最適化し、高忠実で、よく同期し、時間的に一貫性のあるトーキーヘッドビデオを生成することを目的として、デノナイジングプロセスにおける条件として機能する。
論文参考訳（メタデータ） (2024-08-03T10:19:38Z)
MoDiTalker: Motion-Disentangled Diffusion Model for High-Fidelity Talking Head Generation [29.620451579580763]
そこで本研究では,MoDiTalkerと呼ばれる,対話型ヘッド生成のための移動距離拡散モデルを提案する。本稿では、音声から唇の動きを同期させるオーディオ・トゥ・モーション(AToM)と、生成された動きに追従して高品質な頭部映像を生成するモーション・トゥ・ビデオ(MToV)の2つのモジュールを紹介する。標準ベンチマークで行った実験により,既存のモデルと比較して,本モデルが優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-03-28T04:35:42Z)
DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation [72.85685916829321]
DiffSHEGは、任意の長さの音声駆動型ホロスティック3次元表現とジェスチャー生成のための拡散に基づくアプローチである。 DiffSHEGは、表現的および同期的動作のリアルタイム生成を可能にすることで、デジタル人間とエンボディエージェントの開発における様々な応用の可能性を示した。
論文参考訳（メタデータ） (2024-01-09T11:38:18Z)
FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文参考訳（メタデータ） (2023-12-13T19:01:07Z)
StyleInV: A Temporal Style Modulated Inversion Network for Unconditional Video Generation [73.54398908446906]
本稿では,GANのための学習型反転ネットワークを用いた新しいモーションジェネレータの設計を提案する。本手法は,既訓練のStyleGANジェネレータとエンコーダをペアにした場合に,簡単な微調整でスタイル転送をサポートする。
論文参考訳（メタデータ） (2023-08-31T17:59:33Z)
A Comprehensive Multi-scale Approach for Speech and Dynamics Synchrony in Talking Head Generation [0.0]
音声と頭部の動きの短期的・長期的相関をよりよく扱うために,マルチスケールの音声-視覚同期損失とマルチスケールの自己回帰的GANを提案する。我々のジェネレータは顔のランドマーク領域で動作しており、これは標準的な低次元の頭部表現である。
論文参考訳（メタデータ） (2023-07-04T08:29:59Z)
BoDiffusion: Diffusing Sparse Observations for Full-Body Human Motion Synthesis [14.331548412833513]
複合現実感アプリケーションは、没入感のある体験を可能にするために、ユーザのフルボディの動きを追跡する必要がある。本稿では,この非拘束的再構成問題に対処するために,運動合成のための生成拡散モデルであるBoDiffusionを提案する。本稿では,スムーズで現実的なフルボディモーションシーケンスを生成しつつ,スパーストラッキング入力をBoDiffusionが活用できる時間空間調和方式を提案する。
論文参考訳（メタデータ） (2023-04-21T16:39:05Z)
GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face Synthesis [62.297513028116576]
GeneFace は、汎用的で高忠実な NeRF ベースの話し顔生成法である。ヘッド・トルソ問題を解消するために,ヘッド・アウェア・トルソ・NeRFを提案する。
論文参考訳（メタデータ） (2023-01-31T05:56:06Z)
Executing your Commands via Motion Diffusion in Latent Space [51.64652463205012]
本研究では,動作遅延に基づく拡散モデル(MLD)を提案し,条件付き入力に対応する鮮明な動き列を生成する。我々のMDDは、広範囲な人体運動生成タスクにおいて、最先端の手法よりも大幅に改善されている。
論文参考訳（メタデータ） (2022-12-08T03:07:00Z)
DFA-NeRF: Personalized Talking Head Generation via Disentangled Face Attributes Neural Rendering [69.9557427451339]
本稿では,高忠実度音声ヘッド生成のためのニューラルラジアンス場に基づくフレームワークを提案する。具体的には、神経放射野は唇運動の特徴とパーソナライズされた属性を2つの不絡状態として捉えている。本手法は最先端の手法よりもはるかに優れた結果が得られることを示す。
論文参考訳（メタデータ） (2022-01-03T18:23:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。