Fugu-MT 論文翻訳(概要): WildActor: Unconstrained Identity-Preserving Video Generation

論文の概要: WildActor: Unconstrained Identity-Preserving Video Generation

arxiv url: http://arxiv.org/abs/2603.00586v1
Date: Sat, 28 Feb 2026 10:34:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.277036
Title: WildActor: Unconstrained Identity-Preserving Video Generation
Title（参考訳）: WildActor: 制限なしのアイデンティティ保存ビデオ生成
Authors: Qin Guo, Tianyu Yang, Xuanhua He, Fei Shen, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Dan Xu,
Abstract要約: Actor-18Mは、制約のない視点と環境下でのアイデンティティの一貫性を捉えるために設計された、大規模なヒューマンビデオデータセットである。本研究では,WildActorを提案する。
参考スコア（独自算出の注目度）: 29.77746587985128
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Production-ready human video generation requires digital actors to maintain strictly consistent full-body identities across dynamic shots, viewpoints and motions, a setting that remains challenging for existing methods. Prior methods often suffer from face-centric behavior that neglects body-level consistency, or produce copy-paste artifacts where subjects appear rigid due to pose locking. We present Actor-18M, a large-scale human video dataset designed to capture identity consistency under unconstrained viewpoints and environments. Actor-18M comprises 1.6M videos with 18M corresponding human images, covering both arbitrary views and canonical three-view representations. Leveraging Actor-18M, we propose WildActor, a framework for any-view conditioned human video generation. We introduce an Asymmetric Identity-Preserving Attention mechanism coupled with a Viewpoint-Adaptive Monte Carlo Sampling strategy that iteratively re-weights reference conditions by marginal utility for balanced manifold coverage. Evaluated on the proposed Actor-Bench, WildActor consistently preserves body identity under diverse shot compositions, large viewpoint transitions, and substantial motions, surpassing existing methods in these challenging settings.
Abstract（参考訳）: プロダクション対応の人間ビデオ生成では、デジタルアクターはダイナミックショット、視点、動きを厳格に一貫したフルボディのアイデンティティを維持する必要がある。それまでの方法は、ボディレベルの一貫性を無視した顔中心の行動に悩まされたり、ポーズ・ロックによって被験者が硬いように見えるコピー・ペースト・アーティファクトを生み出したりすることが多かった。 Actor-18Mは、制約のない視点と環境下でのアイデンティティの一貫性を捉えるために設計された、大規模なヒューマンビデオデータセットである。 Actor-18Mは、1.6Mビデオと18Mの人間画像で構成され、任意のビューと標準3ビュー表現の両方をカバーしている。 Actor-18Mを活用することで、任意のビュー条件付きヒューマンビデオ生成のためのフレームワークWildActorを提案する。本稿では,視点適応型モンテカルロサンプリング戦略と組み合わさった非対称ID保存注意機構を導入し,バランスの取れた多様体被覆に対する限界効用による参照条件の反復的に再重み付けを行う。提案されたアクター・ベンチに基づいて評価され、ワイルドアクターは、様々なショット構成、大きな視点遷移、実質的な動きの下で、常に身体のアイデンティティを保ち、これらの挑戦的な設定において既存の手法を超越している。

関連論文リスト

Slot-ID: Identity-Preserving Video Generation from Reference Videos via Slot-Based Temporal Identity Encoding [30.62635724018122]
拡散変圧器ビデオジェネレータの同一条件の変種について述べる。短いクリップでは、ポーズや照明を横切る笑顔の作り方など、主題固有のパターンが明らかになっている。このアプローチは、大きなポーズの変化と表現力のある顔行動の下で、恒常的にアイデンティティの保持を改善する。
論文参考訳（メタデータ） (2026-01-04T03:41:55Z)
PoseAnything: Universal Pose-guided Video Generation with Part-aware Temporal Coherence [67.78835640962167]
ポーズ誘導映像生成(Pose-Guided video generation)とは、ポーズの連続を通して生成された映像中の被写体の動きを制御すること。我々は、人間と非人間の両方を扱える初のユニバーサルポーズ誘導ビデオ生成フレームワークであるPoseAnythingを提案する。提案するXPoseは,5万対のポーズビデオと,アノテーションとフィルタリングのための自動パイプラインを含む高品質な公開データセットである。
論文参考訳（メタデータ） (2025-12-15T16:03:26Z)
OpenSubject: Leveraging Video-Derived Identity and Diversity Priors for Subject-driven Image Generation and Manipulation [53.33087515226418]
ビデオ由来の大規模コーパスであるOpenSubjectを導入し,2.5Mサンプルと4.35Mイメージを被験者駆動で生成・操作する。データセットは、4段階のパイプラインで構築されている。さらに、主観的生成と操作を対象とするベンチマークを導入し、その上で、VLM判定器によるアイデンティティの忠実度、即効性、操作整合性、背景整合性を評価する。
論文参考訳（メタデータ） (2025-12-09T06:49:33Z)
From Large Angles to Consistent Faces: Identity-Preserving Video Generation via Mixture of Facial Experts [69.44297222099175]
顔の特徴の異なるが相互に強化された側面を捉えた顔専門家の混合(MoFE)を導入する。データセットの制限を軽減するため、私たちは、Face ConstraintsとIdentity Consistencyという2つの重要な側面を中心としたデータ処理パイプラインを調整しました。我々は、既存のオープンソースヒューマンビデオデータセットからLFA(Large Face Angles)データセットをキュレートし、洗練しました。
論文参考訳（メタデータ） (2025-08-13T04:10:16Z)
PoseGen: In-Context LoRA Finetuning for Pose-Controllable Long Human Video Generation [4.417342791754854]
本稿では,1つの参照画像と駆動ポーズシーケンスから,特定の被写体の任意の長さのビデオを生成する新しいフレームワークPoseGenを紹介する。我々の中核となるイノベーションは、アイデンティティ保存のためのトークンレベルで被写体を注入する、コンテキスト内LoRAファインタニング戦略です。我々はPoseGenがアイデンティティの忠実度において最先端の手法を著しく上回り、精度を高くし、一貫性のあるアーチファクトのない動画を無制限に生成するユニークな能力を示している。
論文参考訳（メタデータ） (2025-08-07T07:19:02Z)
Proteus-ID: ID-Consistent and Motion-Coherent Video Customization [17.792780924370103]
ビデオアイデンティティのカスタマイズは、単一の参照画像とテキストプロンプトを与えられた特定の主題の現実的で時間的に整合したビデオを合成しようとする。この課題は、説明された外観や動作と整合しながらアイデンティティの整合性を維持すること、非現実的な剛性のない自然な流体運動を生成することである。 Proteus-IDは、アイデンティティ一貫性とモーションコヒーレントなビデオカスタマイズのための、新しい拡散ベースのフレームワークである。
論文参考訳（メタデータ） (2025-06-30T11:05:32Z)
Multi-identity Human Image Animation with Structural Video Diffusion [73.38728096088732]
emph Structure Video Diffusionは、現実的なマルチヒューマンビデオを生成するための新しいフレームワークである。当社のアプローチでは、個人間で一貫した外観を維持するために、アイデンティティ固有の埋め込みを導入している。さまざまなマルチヒューマンとオブジェクトのインタラクションシナリオを特徴とする25Kの新しいビデオで、既存のヒューマンビデオデータセットを拡張します。
論文参考訳（メタデータ） (2025-04-05T10:03:49Z)
VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。 SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。 VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文参考訳（メタデータ） (2024-05-28T13:18:32Z)
Do You Guys Want to Dance: Zero-Shot Compositional Human Dance Generation with Multiple Persons [73.21855272778616]
コンポジション・ヒューマン・ダンス・ジェネレーション(cHDG)の新しいタスク、データセット、評価プロトコルを導入する。そこで我々は,任意の人物や背景に整合した動画を正確に追従しながら合成する,MultiDance-Zeroという新しいゼロショットフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-24T10:44:16Z)
Video Face Re-Aging: Toward Temporally Consistent Face Re-Aging [5.252268654349522]
ビデオの顔のリエイジは、人の見かけの年齢をビデオのターゲット年齢に変更する。ほとんどの再老化手法は、ビデオの時間的一貫性を考慮せずに、個々の画像を個別に処理する。多様な年齢層にまたがって対象を特徴付ける新しい合成ビデオデータセットを提案する。
論文参考訳（メタデータ） (2023-11-20T10:01:13Z)
Realistic Face Reenactment via Self-Supervised Disentangling of Identity and Pose [23.211318473026243]
本研究では,大量の未収録映像を自然に再現する自己教師型ハイブリッドモデル(DAE-GAN)を提案する。提案手法は,2つのデフォーミングオートエンコーダと条件生成の最新の進歩を組み合わせたものである。実験の結果,再現された画像の良好な品質と,同一性間での顔の動きの伝達の柔軟性が示された。
論文参考訳（メタデータ） (2020-03-29T06:45:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。