論文の概要: FlowPortrait: Reinforcement Learning for Audio-Driven Portrait Video Generation
- arxiv url: http://arxiv.org/abs/2603.00159v1
- Date: Wed, 25 Feb 2026 22:08:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.067216
- Title: FlowPortrait: Reinforcement Learning for Audio-Driven Portrait Video Generation
- Title(参考訳): FlowPortrait: オーディオ駆動型画像生成のための強化学習
- Authors: Weiting Tan, Andy T. Liu, Ming Tu, Xinghua Qu, Philipp Koehn, Lu Lu,
- Abstract要約: FlowPortraitは、オーディオ駆動のポートレートアニメーションのための強化学習フレームワークである。
高品質なトーキーヘッドビデオを生成し、ポートレートアニメーションにおける強化学習の有効性を強調している。
- 参考スコア(独自算出の注目度): 23.08428760363473
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generating realistic talking-head videos remains challenging due to persistent issues such as imperfect lip synchronization, unnatural motion, and evaluation metrics that correlate poorly with human perception. We propose FlowPortrait, a reinforcement-learning framework for audio-driven portrait animation built on a multimodal backbone for autoregressive audio-to-video generation. FlowPortrait introduces a human-aligned evaluation system based on Multimodal Large Language Models (MLLMs) to assess lip-sync accuracy, expressiveness, and motion quality. These signals are combined with perceptual and temporal consistency regularizers to form a stable composite reward, which is used to post-train the generator via Group Relative Policy Optimization (GRPO). Extensive experiments, including both automatic evaluations and human preference studies, demonstrate that FlowPortrait consistently produces higher-quality talking-head videos, highlighting the effectiveness of reinforcement learning for portrait animation.
- Abstract(参考訳): 不完全な唇の同期、不自然な動き、人間の知覚と相関しない評価指標など、永続的な問題のために、現実的なトーキングヘッドビデオの生成は依然として困難である。
本研究では,マルチモーダルバックボーン上に構築された音声駆動型ポートレートアニメーションの強化学習フレームワークであるFlowPortraitを提案する。
FlowPortraitでは,マルチモーダル大言語モデル(MLLM)に基づくヒューマンアライメント評価システムを導入し,リップ同期の精度,表現性,動作品質を評価する。
これらの信号は知覚的および時間的整合性正規化器と組み合わせて安定な合成報酬を形成し、グループ相対ポリシー最適化(GRPO)を介してジェネレータを訓練する。
自動評価と人間の嗜好研究の両方を含む大規模な実験は、FlowPortraitが高品質なトーキングヘッドビデオを一貫して生成し、ポートレートアニメーションにおける強化学習の有効性を強調している。
関連論文リスト
- PersonaLive! Expressive Portrait Image Animation for Live Streaming [53.63615310186964]
PersonaLiveは、リアルタイムのポートレートアニメーションをストリーミングするための、新しい拡散ベースのフレームワークである。
まず,暗黙の表情と3次元の暗黙のキーポイントというハイブリッドな暗黙の信号を用いて,表現力のある画像レベルの動作制御を実現する。
実験により、PersonaLiveは、従来の拡散ベースのポートレートアニメーションモデルよりも最大7-22倍のスピードアップで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-12-12T03:24:40Z) - Playmate2: Training-Free Multi-Character Audio-Driven Animation via Diffusion Transformer with Reward Feedback [9.569613635896026]
任意の長さの音声ビデオを生成するための拡散変換器(DiT)ベースのフレームワークを提案する。
また,マルチキャラクタ・オーディオ駆動アニメーションの学習自由化手法についても紹介する。
実験により,本手法は既存の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-10-14T02:50:05Z) - StableDub: Taming Diffusion Prior for Generalized and Efficient Visual Dubbing [63.72095377128904]
視覚的ダビングタスクは、運転音声と同期した口の動きを生成することを目的としている。
音声のみの運転パラダイムは、話者固有の唇習慣を不十分に捉えている。
Blind-inpaintingアプローチは、障害を処理する際に視覚的なアーティファクトを生成する。
論文 参考訳(メタデータ) (2025-09-26T05:23:31Z) - Multi-Timescale Motion-Decoupled Spiking Transformer for Audio-Visual Zero-Shot Learning [73.7808110878037]
本稿では,MDST++(Multi-Timescale Motion-Decoupled Spiking Transformer)を提案する。
RGB画像をイベントに変換することで、より正確に動き情報をキャプチャし、背景のバイアスを軽減する。
本実験はMDST++の有効性を検証し,主流ベンチマークにおける最先端手法よりも一貫した優位性を示した。
論文 参考訳(メタデータ) (2025-05-26T13:06:01Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [71.90109867684025]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。
本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。
AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T03:28:53Z) - FLOAT: Generative Motion Latent Flow Matching for Audio-driven Talking Portrait [11.670159942656129]
FLOATは,フローマッチング生成モデルに基づく音声駆動型音声画像生成手法である。
本手法は音声による感情強調をサポートし,表現運動の自然な取り込みを可能にする。
論文 参考訳(メタデータ) (2024-12-02T02:50:07Z) - Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文 参考訳(メタデータ) (2024-06-13T04:33:20Z) - Audio-Visual Speech Representation Expert for Enhanced Talking Face Video Generation and Evaluation [51.92522679353731]
本稿では,学習中の唇の同期損失の計算にAV-HuBERT (Audio-visual speech representation expert) を用いることを提案する。
3つの新しい唇同期評価指標を導入し,唇同期性能を総合的に評価することを目的とした。
論文 参考訳(メタデータ) (2024-05-07T13:55:50Z) - A Comprehensive Multi-scale Approach for Speech and Dynamics Synchrony in Talking Head Generation [16.033455552126348]
マルチスケール音声-視覚同期損失とマルチスケール自動回帰GANを提案する。
マルチモーダル入力ピラミッド上でシンセサイザーモデルのスタックをトレーニングし、これらのモデルをマルチスケールジェネレータネットワークのガイダンスとして利用する。
実験により、頭部運動の動的品質の最先端よりも顕著な改善が示された。
論文 参考訳(メタデータ) (2023-07-04T08:29:59Z) - Multi Modal Adaptive Normalization for Audio to Video Generation [18.812696623555855]
本稿では,音声信号と人物の単一画像とを入力として,任意の長さの人物映像を合成するマルチモーダル適応正規化(MAN)アーキテクチャを提案する。
このアーキテクチャでは,マルチモーダル適応正規化,キーポイントヒートマップ予測器,光フロー予測器,およびクラスアクティベーションマップ[58]ベースのレイヤを用いて,表情成分の動きを学習する。
論文 参考訳(メタデータ) (2020-12-14T07:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。