論文の概要: Improving Human Image Animation via Semantic Representation Alignment
- arxiv url: http://arxiv.org/abs/2605.10523v1
- Date: Mon, 11 May 2026 13:10:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.833451
- Title: Improving Human Image Animation via Semantic Representation Alignment
- Title(参考訳): セマンティック表現アライメントによる人間の画像アニメーションの改善
- Authors: Chang Liu, Mengting Chen, Yixuan Huang, Haoning Wu, Chen Ju, Shuai Xiao, Jinsong Lan, Yanfeng Wang,
- Abstract要約: 我々はセマンティックREPAという新しい手法を導入し、セマンティックREPAは表現アライメントを通してセマンティック表現を監督信号として活用する。
具体的には、ビデオ潜伏者から得られた構造表現とビデオ深度推定機能とを整列する構造アライメントモジュールをトレーニングすることから始める。
次に、事前訓練されたモジュールを固定し、拡散モデルの構造表現に関する追加の監視を行う。
- 参考スコア(独自算出の注目度): 41.4138493485912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The field of image-to-video generation has made remarkable progress. However, challenges such as human limb twisting and facial distortion persist, especially when generating long videos or modeling intensive motions. Existing human image animation works address these issues by incorporating human-specific semantic representations, e.g., dense poses or ID embeddings, as additional conditions. However, conditioning on these representations could decrease the generation flexibility. Moreover, their reliance on RGB pixel supervision also lacks emphasis on learning necessary 3D geometric relationships and temporal coherence. In contrast, we introduce a novel approach named SemanticREPA that leverages these semantic representations as supervision signals through representation alignment. Specifically, we begin by training a structure alignment module that aligns the structure representations obtained from video latents with video depth estimation features. We then fix the pretrained module, and utilize it to provide additional supervision on the structure representations of the diffusion models, achieving structure rectification to generate coherent and stable human structures. Simultaneously, we develop an ID alignment module to align the ID representations of the generated videos to face recognition features. We further propose to use the predicted structure representations to refine identity restoration in relevant regions. With structure and ID alignment, our method demonstrates superior quality on extended character motions and enhanced character consistency.
- Abstract(参考訳): 画像から映像への生成の分野は目覚ましい進歩を遂げた。
しかしながら、人間の手足のねじれや顔の歪みといった課題は、特に長いビデオを生成したり、集中的な動きをモデル化する場合に持続する。
既存の人間の画像アニメーションは、人間固有の意味表現(例えば、密なポーズやID埋め込み)を追加条件として組み込むことで、これらの問題に対処する。
しかし、これらの表現の条件付けは生成の柔軟性を低下させる可能性がある。
さらに、RGBピクセルの監督への依存は、必要な3次元幾何学的関係と時間的コヒーレンスを学習することにも重点を置いていない。
対照的に、セマンティックREPAという新しい手法を導入し、表現アライメントを通してこれらの意味表現を監視信号として活用する。
具体的には、ビデオ潜伏者から得られた構造表現とビデオ深度推定機能とを整列する構造アライメントモジュールをトレーニングすることから始める。
次に、事前訓練されたモジュールを固定し、拡散モデルの構造表現のさらなる監視に利用し、一貫性と安定な人体構造を生成する構造整合を実現する。
同時に、生成されたビデオのID表現を顔認識機能に合わせるためのIDアライメントモジュールを開発する。
さらに、予測された構造表現を用いて、関連する地域のアイデンティティ復元を洗練することを提案する。
構造とIDのアライメントにより,拡張された文字の動きに優れた品質を示し,文字の一貫性を向上する。
関連論文リスト
- ProxyImg: Towards Highly-Controllable Image Representation via Hierarchical Disentangled Proxy Embedding [44.20713526887855]
本稿では,意味的,幾何学的,テクスチュラルな属性を独立したパラメータ空間に分割する階層的プロキシベースパラメトリック画像表現を提案する。
本手法は,直感的,対話的,物理的に妥当な操作が可能でありながら,パラメータが大幅に少ない最先端のレンダリング忠実度を実現する。
論文 参考訳(メタデータ) (2026-02-02T09:53:45Z) - StdGEN++: A Comprehensive System for Semantic-Decomposed 3D Character Generation [57.06461272772509]
StdGEN++は、多種多様な入力から高忠実で意味的に分解された3D文字を生成するための、新しく包括的なシステムである。
最先端の性能を達成し、幾何学的精度と意味的絡み合いにおいて既存の手法を著しく上回っている。
結果として、非破壊的な編集、物理学に準拠したアニメーション、視線追跡など、より進んだ下流の機能をアンロックする。
論文 参考訳(メタデータ) (2026-01-12T15:41:27Z) - Show Me: Unifying Instructional Image and Video Generation with Diffusion Models [16.324312147741495]
画像の操作と映像の予測を可能にする統一的なフレームワークを提案する。
構造的忠実度と時間的コヒーレンスを改善するために,構造的および運動的整合性報酬を導入する。
多様なベンチマーク実験により,本手法は指導画像と映像生成の両方において,専門家モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-11-21T23:24:28Z) - ID-Composer: Multi-Subject Video Synthesis with Hierarchical Identity Preservation [48.59900036213667]
大規模なデータセットで事前訓練されたビデオ生成モデルは高品質なビデオを生成することができるが、テキストや単一の画像に条件付けされることも多い。
本稿では,テキストプロンプトと参照画像から多目的映像を生成する新しいフレームワークであるID-Composerを紹介する。
論文 参考訳(メタデータ) (2025-11-01T11:29:14Z) - Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [131.33758144860988]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。
本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T06:54:44Z) - Proteus-ID: ID-Consistent and Motion-Coherent Video Customization [17.792780924370103]
ビデオアイデンティティのカスタマイズは、単一の参照画像とテキストプロンプトを与えられた特定の主題の現実的で時間的に整合したビデオを合成しようとする。
この課題は、説明された外観や動作と整合しながらアイデンティティの整合性を維持すること、非現実的な剛性のない自然な流体運動を生成することである。
Proteus-IDは、アイデンティティ一貫性とモーションコヒーレントなビデオカスタマイズのための、新しい拡散ベースのフレームワークである。
論文 参考訳(メタデータ) (2025-06-30T11:05:32Z) - RepVideo: Rethinking Cross-Layer Representation for Video Generation [53.701548524818534]
テキスト・ビデオ拡散モデルのための拡張表現フレームワークであるRepVideoを提案する。
近隣層からの機能を蓄積してリッチな表現を形成することで、このアプローチはより安定したセマンティック情報をキャプチャする。
我々の実験は、RepVideoが正確な空間的外観を生成する能力を著しく向上するだけでなく、ビデオ生成における時間的一貫性も向上することを示した。
論文 参考訳(メタデータ) (2025-01-15T18:20:37Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。