論文の概要: AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation
- arxiv url: http://arxiv.org/abs/2411.17383v1
- Date: Tue, 26 Nov 2024 12:42:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:34:55.117678
- Title: AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation
- Title(参考訳): AnchorCrafter:AnimateのCyberAnchorsは、対話型ビデオ生成で製品を救う
- Authors: Ziyi Xu, Ziyao Huang, Juan Cao, Yong Zhang, Xiaodong Cun, Qing Shuai, Yuchen Wang, Linchao Bao, Jintao Li, Fan Tang,
- Abstract要約: AnchorCrafterは、ターゲットの人間とカスタマイズされたオブジェクトを特徴とする2Dビデオを生成するように設計された新しいシステムである。
本稿では,物体の外観認識を任意の視点から拡張するHOI-appearance Recognitionと,複雑な人間と物体の相互作用を可能にするHOI-motion Injectionという2つの重要なイノベーションを提案する。
提案システムは、人間の外観と動きの一貫性を維持しながら、物体の外観と形状の認識を保存するための既存の手法よりも優れる。
- 参考スコア(独自算出の注目度): 40.81246588724407
- License:
- Abstract: The automatic generation of anchor-style product promotion videos presents promising opportunities in online commerce, advertising, and consumer engagement. However, this remains a challenging task despite significant advancements in pose-guided human video generation. In addressing this challenge, we identify the integration of human-object interactions (HOI) into pose-guided human video generation as a core issue. To this end, we introduce AnchorCrafter, a novel diffusion-based system designed to generate 2D videos featuring a target human and a customized object, achieving high visual fidelity and controllable interactions. Specifically, we propose two key innovations: the HOI-appearance perception, which enhances object appearance recognition from arbitrary multi-view perspectives and disentangles object and human appearance, and the HOI-motion injection, which enables complex human-object interactions by overcoming challenges in object trajectory conditioning and inter-occlusion management. Additionally, we introduce the HOI-region reweighting loss, a training objective that enhances the learning of object details. Extensive experiments demonstrate that our proposed system outperforms existing methods in preserving object appearance and shape awareness, while simultaneously maintaining consistency in human appearance and motion. Project page: https://cangcz.github.io/Anchor-Crafter/
- Abstract(参考訳): アンカースタイルの製品プロモーションビデオの自動生成は、オンラインコマース、広告、消費者エンゲージメントにおいて有望な機会を提供する。
しかし、ポーズ誘導型ビデオ生成の大幅な進歩にもかかわらず、これは依然として困難な課題である。
この課題に対処するにあたっては、人-物間相互作用(HOI)と人-物間相互作用(HOI)の統合が中心となる課題である。
この目的を達成するために、ターゲットとカスタマイズされたオブジェクトを特徴とする2Dビデオを生成し、高い視覚的忠実性と制御可能なインタラクションを実現するために設計された、新しい拡散ベースシステムであるAnchorCrafterを紹介した。
具体的には、任意の多視点視点からオブジェクトの外観認識を強化し、オブジェクトと人間の外観を歪ませるHOI-appearance Recognitionと、オブジェクトの軌跡条件や介在物間管理における課題を克服して複雑な人間と物体の相互作用を可能にするHOI-motion Injectionという2つの重要なイノベーションを提案する。
さらに,物体の詳細の学習を促進する訓練目的であるHOI領域再重み付け損失についても紹介する。
広範囲な実験により,提案システムは,人間の外観と動きの一貫性を維持しつつ,物体の外観と形状の認識を保存するための既存の手法よりも優れていた。
プロジェクトページ: https://cangcz.github.io/Anchor-Crafter/
関連論文リスト
- AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation [60.5897687447003]
AvatarGOはテキスト入力からリアルな4D HOIシーンを生成するために設計された新しいフレームワークである。
我々のフレームワークは、コヒーレントな構成運動を生成するだけでなく、問題に対処する上でより堅牢性を示す。
4Dアバターをオブジェクトインタラクションで合成する最初の試みとして、AvatarGOが人間中心の4Dコンテンツを作るための新しい扉を開くことを願っている。
論文 参考訳(メタデータ) (2024-10-09T17:58:56Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - Compositional 3D Human-Object Neural Animation [93.38239238988719]
人間と物体の相互作用(HOI)は、人間中心の視覚生成、AR/VR、ロボット工学などの人間中心のシーン理解アプリケーションに不可欠である。
本稿では,HoIアニメーションにおけるこの課題について,作曲の観点から考察する。
我々は、暗黙のニューラル表現に基づいてHOIダイナミクスをモデル化し、レンダリングするために、ニューラル・ヒューマン・オブジェクトの変形を採用する。
論文 参考訳(メタデータ) (2023-04-27T10:04:56Z) - HOSNeRF: Dynamic Human-Object-Scene Neural Radiance Fields from a Single
Video [24.553659249564852]
HOSNeRFは、単一のモノクラーインザワイルドビデオから、ダイナミックな人間オブジェクトシーンのための神経放射場を再構成する。
本手法は,任意のフレームで映像をパージングし,任意の視点からシーンの詳細をレンダリングする。
論文 参考訳(メタデータ) (2023-04-24T17:21:49Z) - Learning Object Manipulation Skills from Video via Approximate
Differentiable Physics [27.923004421974156]
我々はロボットに、単一のビデオデモを見て、シンプルなオブジェクト操作タスクを実行するように教える。
識別可能なシーンは、3Dシーンと2Dビデオの間の知覚的忠実性を保証する。
我々は,54のデモ映像からなる3次元再構成作業に対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-08-03T10:21:47Z) - Estimating 3D Motion and Forces of Human-Object Interactions from
Internet Videos [49.52070710518688]
一つのRGBビデオからオブジェクトと対話する人の3D動作を再構築する手法を提案する。
本手法では,被験者の3次元ポーズを物体のポーズ,接触位置,人体の接触力とともに推定する。
論文 参考訳(メタデータ) (2021-11-02T13:40:18Z) - Weakly Supervised Human-Object Interaction Detection in Video via
Contrastive Spatiotemporal Regions [81.88294320397826]
システムは、ビデオに人間と物体の相互作用が存在するか、あるいは人間と物体の実際の位置を知らない。
文節から収集した人-物間相互作用による6.5k以上のビデオからなるデータセットを提案する。
ビデオデータセットのアノテーションに適応した弱教師付きベースラインの性能向上を実証した。
論文 参考訳(メタデータ) (2021-10-07T15:30:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。