論文の概要: OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models
- arxiv url: http://arxiv.org/abs/2502.01061v2
- Date: Thu, 13 Feb 2025 06:56:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:45:25.609951
- Title: OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models
- Title(参考訳): OmniHuman-1:ワンステージ人間アニメーションモデルのスケールアップ再考
- Authors: Gaojie Lin, Jianwen Jiang, Jiaqi Yang, Zerong Zheng, Chao Liang,
- Abstract要約: 動作関連条件をトレーニングフェーズに混合することにより,データをスケールアップする拡散トランスフォーマーベースのフレームワークを提案する。
これらの設計により、OmniHumanはデータ駆動モーション生成を完全に活用し、最終的に非常にリアルな人間のビデオ生成を実現することができる。
既存のエンドツーエンドのオーディオ駆動方式と比較して、OmniHumanはよりリアルなビデオを生成するだけでなく、入力の柔軟性も向上している。
- 参考スコア(独自算出の注目度): 25.45077656291886
- License:
- Abstract: End-to-end human animation, such as audio-driven talking human generation, has undergone notable advancements in the recent few years. However, existing methods still struggle to scale up as large general video generation models, limiting their potential in real applications. In this paper, we propose OmniHuman, a Diffusion Transformer-based framework that scales up data by mixing motion-related conditions into the training phase. To this end, we introduce two training principles for these mixed conditions, along with the corresponding model architecture and inference strategy. These designs enable OmniHuman to fully leverage data-driven motion generation, ultimately achieving highly realistic human video generation. More importantly, OmniHuman supports various portrait contents (face close-up, portrait, half-body, full-body), supports both talking and singing, handles human-object interactions and challenging body poses, and accommodates different image styles. Compared to existing end-to-end audio-driven methods, OmniHuman not only produces more realistic videos, but also offers greater flexibility in inputs. It also supports multiple driving modalities (audio-driven, video-driven and combined driving signals). Video samples are provided on the ttfamily project page (https://omnihuman-lab.github.io)
- Abstract(参考訳): 音声駆動音声生成のようなエンドツーエンドの人間アニメーションは、ここ数年で顕著な進歩を遂げている。
しかし、既存の手法は依然として大規模な一般的なビデオ生成モデルとしてスケールアップに苦慮しており、実際のアプリケーションではその可能性を制限している。
本稿では,Diffusion TransformerベースのフレームワークであるOmniHumanを提案する。
この目的のために、これらの混合条件に対する2つのトレーニング原則と、対応するモデルアーキテクチャと推論戦略を導入する。
これらの設計により、OmniHumanはデータ駆動モーション生成を完全に活用し、最終的に非常にリアルな人間のビデオ生成を実現することができる。
さらに重要なのは、OmniHumanはさまざまなポートレートコンテンツ(顔のクローズアップ、ポートレート、ハーフボディ、フルボディ)をサポートし、会話と歌の両方をサポートし、人間とオブジェクトのインタラクションと挑戦的なボディポーズに対応し、異なるイメージスタイルに対応していることだ。
既存のエンドツーエンドのオーディオ駆動方式と比較して、OmniHumanはよりリアルなビデオを生成するだけでなく、入力の柔軟性も向上している。
また、複数の駆動モード(オーディオ駆動、ビデオ駆動、複合駆動信号)もサポートしている。
ビデオサンプルはtt Familyプロジェクトページ(https://omnihuman-lab.github.io)で公開されている。
関連論文リスト
- Harmon: Whole-Body Motion Generation of Humanoid Robots from Language Descriptions [31.134450087838673]
この研究は、言語記述からヒューマノイドロボットのための多様な全身運動を生成することに焦点を当てている。
我々は、人体の動きを初期化するために、広範囲な人体の動きデータセットから人体の動きの先行を活用できる。
提案手法は, 自然な, 表現的, テキストに沿ったヒューマノイド運動を生成できることを実証する。
論文 参考訳(メタデータ) (2024-10-16T17:48:50Z) - Massively Multi-Person 3D Human Motion Forecasting with Scene Context [13.197408989895102]
本研究では、長期(10秒)の人間の動きを予測するために、シーン認識型ソーシャルトランスフォーマーモデル(SAST)を提案する。
我々は、時間的畳み込みエンコーダ・デコーダアーキテクチャとTransformerベースのボトルネックを組み合わせることで、動きとシーン情報を効率的に組み合わせることができる。
我々のモデルは、さまざまなメトリクスやユーザスタディにおいて、リアリズムや多様性の観点から、他のアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-09-18T17:58:51Z) - Body of Her: A Preliminary Study on End-to-End Humanoid Agent [0.8702432681310401]
本稿では,現実的なエージェントの動作をモデル化可能な,リアルタイムで複雑な対話型エンド・ツー・エンド・ネットワークを提案する。
この研究は、この分野でエンド・ツー・エンドのアプローチを予備的な調査を行い、スケールアップに向けたさらなる研究を刺激することを目的としている。
論文 参考訳(メタデータ) (2024-08-06T01:13:09Z) - HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation [64.37874983401221]
人間の画像アニメーションに適した,最初の大規模高品質データセットであるHumanVidを紹介する。
実世界のデータについては、インターネットから大量の実世界のビデオをコンパイルします。
合成データとして,10K3Dアバターを収集し,体形,肌のテクスチャ,衣服などの既存の資産を利用した。
論文 参考訳(メタデータ) (2024-07-24T17:15:58Z) - VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis [40.869862603815875]
VLOGGER (VLOGGER) は、単一の入力画像から音声駆動のヒューマンビデオを生成する方法である。
空間的および時間的制御の両面からテキスト・ツー・イメージ・モデルを拡張する新しい拡散型アーキテクチャを用いている。
ビデオ編集やパーソナライズにおける応用例を示す。
論文 参考訳(メタデータ) (2024-03-13T17:59:02Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Generating Holistic 3D Human Motion from Speech [97.11392166257791]
同期音声を用いた3次元全体体メッシュの高品質データセットを構築した。
次に,顔,体,手が別々にモデル化される新しい音声合成フレームワークを定義する。
論文 参考訳(メタデータ) (2022-12-08T17:25:19Z) - Image Comes Dancing with Collaborative Parsing-Flow Video Synthesis [124.48519390371636]
人の動きをソースから対象人物に転送することは、コンピュータビジョンやグラフィックアプリケーションにおいて大きな可能性を秘めている。
これまでは、人工的な3Dモデルに頼っていたり、ターゲットごとに個別のモデルを訓練していた。
本研究は,ソース映像から対象人物への動きを同期的に伝達する単一モデルを学習することを目的とした,より一般的な設定について研究する。
論文 参考訳(メタデータ) (2021-10-27T03:42:41Z) - S3: Neural Shape, Skeleton, and Skinning Fields for 3D Human Modeling [103.65625425020129]
歩行者の形状、ポーズ、皮膚の重みを、データから直接学習する神経暗黙関数として表現します。
各種データセットに対するアプローチの有効性を実証し,既存の最先端手法よりも再現性が優れていることを示す。
論文 参考訳(メタデータ) (2021-01-17T02:16:56Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。