論文の概要: FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for Audio-Driven Portrait Animation
- arxiv url: http://arxiv.org/abs/2508.11255v1
- Date: Fri, 15 Aug 2025 06:43:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.765048
- Title: FantasyTalking2: Timestep-Layer Adaptive Preference Optimization for Audio-Driven Portrait Animation
- Title(参考訳): FantasyTalking2: オーディオ駆動型ポートレートアニメーションのためのタイムステップ・レイア適応優先最適化
- Authors: MengChao Wang, Qiang Wang, Fan Jiang, Mu Xu,
- Abstract要約: 本研究では,多次元の期待を満足するビデオの精度を定量化するために,人間と協調する報酬関数を学習する報酬モデルであるTalking-Criticを紹介する。
また、拡散に基づくポートレートアニメーションモデルと微細な多次元の好みを整合させる新しいフレームワークであるTLPO(Timestep-Layer Adaptive Multi-expert Preference Optimization)を提案する。
実験では、トーキング・クライブが人間の嗜好評価と整合する既存の手法を著しく上回っていることを示した。
- 参考スコア(独自算出の注目度): 7.550875699205677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in audio-driven portrait animation have demonstrated impressive capabilities. However, existing methods struggle to align with fine-grained human preferences across multiple dimensions, such as motion naturalness, lip-sync accuracy, and visual quality. This is due to the difficulty of optimizing among competing preference objectives, which often conflict with one another, and the scarcity of large-scale, high-quality datasets with multidimensional preference annotations. To address these, we first introduce Talking-Critic, a multimodal reward model that learns human-aligned reward functions to quantify how well generated videos satisfy multidimensional expectations. Leveraging this model, we curate Talking-NSQ, a large-scale multidimensional human preference dataset containing 410K preference pairs. Finally, we propose Timestep-Layer adaptive multi-expert Preference Optimization (TLPO), a novel framework for aligning diffusion-based portrait animation models with fine-grained, multidimensional preferences. TLPO decouples preferences into specialized expert modules, which are then fused across timesteps and network layers, enabling comprehensive, fine-grained enhancement across all dimensions without mutual interference. Experiments demonstrate that Talking-Critic significantly outperforms existing methods in aligning with human preference ratings. Meanwhile, TLPO achieves substantial improvements over baseline models in lip-sync accuracy, motion naturalness, and visual quality, exhibiting superior performance in both qualitative and quantitative evaluations. Ours project page: https://fantasy-amap.github.io/fantasy-talking2/
- Abstract(参考訳): オーディオ駆動のポートレートアニメーションの最近の進歩は印象的な能力を示している。
しかし、既存の方法は、動きの自然さ、リップシンクの正確さ、視覚的品質など、複数の次元にわたる細かい人間の好みに合わせるのに苦労している。
これは、競合する選好目的間の最適化が困難であること、多次元選好アノテーションを備えた大規模で高品質なデータセットが不足していることによるものである。
これらの問題に対処するために,我々はまず,多次元の期待を満足する動画を定量化するために,人間の協調報酬関数を学習するマルチモーダル報酬モデルであるTalking-Criticを紹介した。
このモデルを利用して、410Kの選好ペアを含む大規模多次元人選好データセットであるTalking-NSQをキュレートする。
最後に、拡散に基づくポートレートアニメーションモデルと微細な多次元の嗜好を整合させる新しいフレームワークであるTLPO(Timestep-Layer Adaptive Multi-expert Preference Optimization)を提案する。
TLPOは好みを専門の専門モジュールに分離し、時間ステップとネットワーク層をまたいで融合し、相互干渉なしに全次元にわたって包括的できめ細かい拡張を可能にする。
実験により、T Talking-Critic は人間の嗜好評価と整合する既存の手法を著しく上回っていることが示された。
一方、TLPOは、リップシンク精度、運動自然性、視覚的品質においてベースラインモデルよりも大幅に改善され、質的および定量的評価において優れた性能を示す。
私たちのプロジェクトページ:https://fantasy-amap.github.io/fantasy-talking2/
関連論文リスト
- SynPO: Synergizing Descriptiveness and Preference Optimization for Video Detailed Captioning [69.34975070207763]
我々は、選好学習を活用し、細粒度ビデオキャプションにおける視覚言語モデルの性能を向上させる。
本稿では,DPOとその変種に対する大きな優位性を示す新しい最適化手法を提案する。
その結果、SynPOはトレーニング効率を20%向上しつつ、DPOの変種を一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-01T04:51:49Z) - Aligning Anime Video Generation with Human Feedback [31.701968335565393]
アニメビデオ生成は、アニメデータの不足と異常な動きパターンのために大きな課題に直面している。
既存の報酬モデルは、主に現実世界のビデオ用に設計されており、アニメのユニークな外観と一貫性の要求を捉えていない。
そこで本研究では,人間のフィードバックを有効活用して,アニメ映像生成を向上するためのパイプラインを提案する。
論文 参考訳(メタデータ) (2025-04-14T09:49:34Z) - Multi-Step Alignment as Markov Games: An Optimistic Online Gradient Descent Approach with Convergence Guarantees [91.88803125231189]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の好みを合わせることに成功している。
DPOのような一般的な手法は高い性能を示してきたが、彼らは言語モデルとの相互作用を帯域幅の問題として捉えている。
本稿では,アライメント問題を2プレイヤー定数マルコフゲームとしてモデル化することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2025-02-18T09:33:48Z) - Diffusion Model as a Noise-Aware Latent Reward Model for Step-Level Preference Optimization [49.302188710680866]
拡散モデルの優先度最適化は、画像を人間の好みに合わせることを目的としている。
事前学習した拡散モデルは,ノイズのある潜在空間におけるステップレベルの報酬モデルに自然に適していることを示す。
雑音の多い遅延空間で直接実行されるステップレベルの優先度最適化手法であるLatent Preference Optimization (LPO)を導入する。
論文 参考訳(メタデータ) (2025-02-03T04:51:28Z) - CHiP: Cross-modal Hierarchical Direct Preference Optimization for Multimodal LLMs [107.21334626890713]
MLLM(Multimodal Large Language Models)は、その優れた能力にもかかわらず、幻覚に苦しむ。
本稿では,これらの制約に対処するクロスモーダル階層型直接選好最適化(CHiP)を提案する。
定量的および定性的な分析によってCHiPを評価し,幻覚の低減効果を複数のベンチマークで実証した。
論文 参考訳(メタデータ) (2025-01-28T02:05:38Z) - Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。
PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。
提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文 参考訳(メタデータ) (2025-01-11T22:38:41Z) - VideoDPO: Omni-Preference Alignment for Video Diffusion Generation [48.36302380755874]
DPO(Direct Preference Optimization)は、言語と画像生成において大幅に改善されている。
本稿では,いくつかの重要な調整を施したビデオDPOパイプラインを提案する。
本実験は視覚的品質とセマンティックアライメントの両面で大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2024-12-18T18:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。