論文の概要: AlignHuman: Improving Motion and Fidelity via Timestep-Segment Preference Optimization for Audio-Driven Human Animation
- arxiv url: http://arxiv.org/abs/2506.11144v1
- Date: Wed, 11 Jun 2025 05:33:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.509822
- Title: AlignHuman: Improving Motion and Fidelity via Timestep-Segment Preference Optimization for Audio-Driven Human Animation
- Title(参考訳): AlignHuman: タイムステップ・セグメンションによる人間アニメーションの動作と忠実度の向上
- Authors: Chao Liang, Jianwen Jiang, Wang Liao, Jiaqi Yang, Zerong zheng, Weihong Zeng, Han Liang,
- Abstract要約: 提案する textbfAlignHuman は,事前参照最適化をポストトレーニング手法と分割/コンカレントトレーニング戦略を組み合わせたフレームワークである。
LoRAは、それぞれの嗜好データを用いて訓練され、推論中に対応する間隔で活性化され、動きの自然性と忠実性を高める。
実験の結果、AlignHumanは強いベースラインを改善し、推論中にNFEを削減し、3.3$times$ Speedupを達成した。
- 参考スコア(独自算出の注目度): 24.745851101654612
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in human video generation and animation tasks, driven by diffusion models, have achieved significant progress. However, expressive and realistic human animation remains challenging due to the trade-off between motion naturalness and visual fidelity. To address this, we propose \textbf{AlignHuman}, a framework that combines Preference Optimization as a post-training technique with a divide-and-conquer training strategy to jointly optimize these competing objectives. Our key insight stems from an analysis of the denoising process across timesteps: (1) early denoising timesteps primarily control motion dynamics, while (2) fidelity and human structure can be effectively managed by later timesteps, even if early steps are skipped. Building on this observation, we propose timestep-segment preference optimization (TPO) and introduce two specialized LoRAs as expert alignment modules, each targeting a specific dimension in its corresponding timestep interval. The LoRAs are trained using their respective preference data and activated in the corresponding intervals during inference to enhance motion naturalness and fidelity. Extensive experiments demonstrate that AlignHuman improves strong baselines and reduces NFEs during inference, achieving a 3.3$\times$ speedup (from 100 NFEs to 30 NFEs) with minimal impact on generation quality. Homepage: \href{https://alignhuman.github.io/}{https://alignhuman.github.io/}
- Abstract(参考訳): 拡散モデルによって駆動される人間の映像生成とアニメーションタスクの最近の進歩は、大きな進歩を遂げている。
しかし、自然な動きと視覚的忠実さのトレードオフのため、表現的で現実的な人間のアニメーションは依然として困難である。
そこで本稿では,Preference Optimization をポストトレーニング手法として組み合わせたフレームワークである \textbf{AlignHuman} を提案する。
1)早期認知の時間ステップは動きのダイナミクスを主に制御するが,(2)忠実度と人体構造は初期のステップをスキップしても後続の時間ステップによって効果的に管理できる。
そこで本研究では,TPO(Timestep-segment preference Optimization)を提案し,それぞれが対応する時間ステップ間隔の特定の次元を対象とする2つの特別なLoRAを専門家アライメントモジュールとして導入する。
LoRAはそれぞれの嗜好データを用いて訓練され、推論中に対応する間隔で活性化され、動きの自然性と忠実性を高める。
大規模な実験では、AlignHumanは強いベースラインを改善し、推論中にNFEを減少させ、3.3$\times$スピードアップ(100 NFEから30 NFE)を達成した。
ホームページ: \href{https://align human.github.io/}{https://align human.github.io/}
関連論文リスト
- Zero-Shot Temporal Interaction Localization for Egocentric Videos [13.70694228506315]
EgoLocと呼ばれる新しいゼロショットTIL手法を提案する。
2Dと3Dの両方を吸収することにより、EgoLocはHOIの接触/分離タイムスタンプに関する高品質な初期推定を直接サンプリングする。
EgoLocは、最先端のベースラインに比べて、エゴセントリックなビデオの時間的相互作用のローカライゼーションが優れている。
論文 参考訳(メタデータ) (2025-06-04T07:52:46Z) - Hallo4: High-Fidelity Dynamic Portrait Animation via Direct Preference Optimization and Temporal Motion Modulation [26.597877504216196]
人中心アニメーションに適した直接選好最適化を提案する。
第二に、提案した時間運動変調は、分解ミスマッチを解消する。
実験では, 口唇音の同期, 表情の鮮明さ, 体の動きのコヒーレンスをベースライン法より明らかに改善した。
論文 参考訳(メタデータ) (2025-05-29T15:04:00Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - EvAnimate: Event-conditioned Image-to-Video Generation for Human Animation [58.41979933166173]
EvAnimateは、条件付き人間の画像アニメーションにおいて、イベントストリームを堅牢で正確なモーションキューとして活用する最初の方法である。
高品質で時間的コヒーレントなアニメーションはデュアルブランチアーキテクチャによって実現される。
実験結果から,従来の映像由来のキューが短いシナリオにおいて,EvAnimateは時間的忠実度が高く,頑健なパフォーマンスを実現することが示された。
論文 参考訳(メタデータ) (2025-03-24T11:05:41Z) - GestureLSM: Latent Shortcut based Co-Speech Gesture Generation with Spatial-Temporal Modeling [32.47567372398872]
GestureLSM は空間時間モデルを用いた共音声ジェスチャ生成のためのフローマッチングに基づくアプローチである。
BEAT2の最先端性能を実現し、既存の手法と比較して推論時間を著しく短縮する。
論文 参考訳(メタデータ) (2025-01-31T05:34:59Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - MotionRL: Align Text-to-Motion Generation to Human Preferences with Multi-Reward Reinforcement Learning [99.09906827676748]
我々は、テキスト・ツー・モーション生成タスクを最適化するために、Multi-Reward Reinforcement Learning(RL)を利用する最初のアプローチであるMotionRLを紹介する。
我々の新しいアプローチは、人間の知覚モデルに関する知識以前の人間の嗜好に基づいて、強化学習を用いて運動生成体を微調整する。
さらに、MotionRLは、テキストのアテンデンス、モーションクオリティ、人間の好みの最適性を近似する、新しい多目的最適化戦略を導入している。
論文 参考訳(メタデータ) (2024-10-09T03:27:14Z) - TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation [30.734182958106327]
現在の手法は2つの主要なカテゴリに分類される。
本稿では,人間の動作生成のための効率的かつ効果的なフレームワークであるTIMotion(Temporal and Interactive Modeling)を紹介する。
論文 参考訳(メタデータ) (2024-08-30T09:22:07Z) - Text-guided 3D Human Motion Generation with Keyframe-based Parallel Skip Transformer [62.29951737214263]
既存のアルゴリズムは、コストがかかりエラーを起こしやすい全シーケンスを直接生成する。
本稿では,入力テキストに対応する人間の動作系列を生成するKeyMotionを提案する。
我々は,自動エンコーダを潜在空間に投影するために,Kullback-Leibler正規化付き変分符号器(VAE)を用いる。
逆拡散のために,デザインラテントとテキスト条件の相互参照を行う新しいパラレルスキップ変換器を提案する。
論文 参考訳(メタデータ) (2024-05-24T11:12:37Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。