論文の概要: AnchorCrafter: Animate Cyber-Anchors Selling Your Products via Human-Object Interacting Video Generation
- arxiv url: http://arxiv.org/abs/2411.17383v2
- Date: Mon, 23 Jun 2025 06:27:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 14:54:00.127685
- Title: AnchorCrafter: Animate Cyber-Anchors Selling Your Products via Human-Object Interacting Video Generation
- Title(参考訳): AnchorCrafter:AnimateのCyber-Anchorsは、対話型ビデオ生成で製品を売る
- Authors: Ziyi Xu, Ziyao Huang, Juan Cao, Yong Zhang, Xiaodong Cun, Qing Shuai, Yuchen Wang, Linchao Bao, Jintao Li, Fan Tang,
- Abstract要約: アンカースタイルの製品プロモーションビデオは、eコマース、広告、消費者エンゲージメントにおいて有望な機会を提供する。
AnchorCrafterは、ターゲットの人間とカスタマイズされたオブジェクトを特徴とする2Dビデオを生成するために設計された、新しい拡散ベースのシステムである。
本稿では,物体の外観認識を任意の視点から拡張するHOI-appearance Recognitionと,複雑な人間と物体の相互作用を可能にするHOI-motion Injectionという2つの重要なイノベーションを提案する。
- 参考スコア(独自算出の注目度): 40.81246588724407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The generation of anchor-style product promotion videos presents promising opportunities in e-commerce, advertising, and consumer engagement. Despite advancements in pose-guided human video generation, creating product promotion videos remains challenging. In addressing this challenge, we identify the integration of human-object interactions (HOI) into pose-guided human video generation as a core issue. To this end, we introduce AnchorCrafter, a novel diffusion-based system designed to generate 2D videos featuring a target human and a customized object, achieving high visual fidelity and controllable interactions. Specifically, we propose two key innovations: the HOI-appearance perception, which enhances object appearance recognition from arbitrary multi-view perspectives and disentangles object and human appearance, and the HOI-motion injection, which enables complex human-object interactions by overcoming challenges in object trajectory conditioning and inter-occlusion management. Extensive experiments show that our system improves object appearance preservation by 7.5\% and doubles the object localization accuracy compared to existing state-of-the-art approaches. It also outperforms existing approaches in maintaining human motion consistency and high-quality video generation. Project page including data, code, and Huggingface demo: https://github.com/cangcz/AnchorCrafter.
- Abstract(参考訳): アンカースタイルの製品プロモーションビデオは、eコマース、広告、消費者エンゲージメントにおいて有望な機会を提供する。
ポーズ誘導による人間のビデオ生成の進歩にもかかわらず、製品プロモーションビデオを作成することは難しい。
この課題に対処するにあたっては、人-物間相互作用(HOI)と人-物間相互作用(HOI)の統合が中心となる課題である。
この目的を達成するために、ターゲットとカスタマイズされたオブジェクトを特徴とする2Dビデオを生成し、高い視覚的忠実性と制御可能なインタラクションを実現するために設計された、新しい拡散ベースシステムであるAnchorCrafterを紹介した。
具体的には、任意の多視点視点からオブジェクトの外観認識を強化し、オブジェクトと人間の外観を歪ませるHOI-appearance Recognitionと、オブジェクトの軌跡条件や介在物間管理における課題を克服して複雑な人間と物体の相互作用を可能にするHOI-motion Injectionという2つの重要なイノベーションを提案する。
広範囲な実験により,本システムは物体の外観保存を7.5 %改善し,既存の最先端手法と比較して物体の局所化精度を2倍に向上することが示された。
また、人間の動きの一貫性と高品質なビデオ生成の維持において、既存のアプローチよりも優れています。
データ、コード、Huggingfaceデモを含むプロジェクトページ:https://github.com/cangcz/AnchorCrafter.com
関連論文リスト
- Multi-identity Human Image Animation with Structural Video Diffusion [64.20452431561436]
本稿では,リアルなマルチヒューマンビデオを生成するための新しいフレームワークであるStructure Video Diffusionを提案する。
当社のアプローチでは、個人間で一貫した外観を維持するために、アイデンティティ固有の埋め込みを導入している。
さまざまなマルチヒューマンとオブジェクトのインタラクションシナリオを特徴とする25Kの新しいビデオで、既存のヒューマンビデオデータセットを拡張します。
論文 参考訳(メタデータ) (2025-04-05T10:03:49Z) - Re-HOLD: Video Hand Object Interaction Reenactment via adaptive Layout-instructed Diffusion Model [72.90370736032115]
本稿では,適応的レイアウト指示拡散モデル(Re-HOLD)によるヒューマンオブジェクトインタラクション(HOI)に着目した新しいビデオ再現フレームワークを提案する。
私たちのキーとなる洞察は、それぞれ手とオブジェクトに特別なレイアウト表現を採用することです。
HOIの生成品質をさらに向上するため,手と物体の対話型音質向上モジュールを設計した。
論文 参考訳(メタデータ) (2025-03-21T08:40:35Z) - AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation [60.5897687447003]
AvatarGOはテキスト入力からリアルな4D HOIシーンを生成するために設計された新しいフレームワークである。
我々のフレームワークは、コヒーレントな構成運動を生成するだけでなく、問題に対処する上でより堅牢性を示す。
4Dアバターをオブジェクトインタラクションで合成する最初の試みとして、AvatarGOが人間中心の4Dコンテンツを作るための新しい扉を開くことを願っている。
論文 参考訳(メタデータ) (2024-10-09T17:58:56Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - Compositional 3D Human-Object Neural Animation [93.38239238988719]
人間と物体の相互作用(HOI)は、人間中心の視覚生成、AR/VR、ロボット工学などの人間中心のシーン理解アプリケーションに不可欠である。
本稿では,HoIアニメーションにおけるこの課題について,作曲の観点から考察する。
我々は、暗黙のニューラル表現に基づいてHOIダイナミクスをモデル化し、レンダリングするために、ニューラル・ヒューマン・オブジェクトの変形を採用する。
論文 参考訳(メタデータ) (2023-04-27T10:04:56Z) - HOSNeRF: Dynamic Human-Object-Scene Neural Radiance Fields from a Single
Video [24.553659249564852]
HOSNeRFは、単一のモノクラーインザワイルドビデオから、ダイナミックな人間オブジェクトシーンのための神経放射場を再構成する。
本手法は,任意のフレームで映像をパージングし,任意の視点からシーンの詳細をレンダリングする。
論文 参考訳(メタデータ) (2023-04-24T17:21:49Z) - Learning Object Manipulation Skills from Video via Approximate
Differentiable Physics [27.923004421974156]
我々はロボットに、単一のビデオデモを見て、シンプルなオブジェクト操作タスクを実行するように教える。
識別可能なシーンは、3Dシーンと2Dビデオの間の知覚的忠実性を保証する。
我々は,54のデモ映像からなる3次元再構成作業に対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-08-03T10:21:47Z) - Estimating 3D Motion and Forces of Human-Object Interactions from
Internet Videos [49.52070710518688]
一つのRGBビデオからオブジェクトと対話する人の3D動作を再構築する手法を提案する。
本手法では,被験者の3次元ポーズを物体のポーズ,接触位置,人体の接触力とともに推定する。
論文 参考訳(メタデータ) (2021-11-02T13:40:18Z) - Weakly Supervised Human-Object Interaction Detection in Video via
Contrastive Spatiotemporal Regions [81.88294320397826]
システムは、ビデオに人間と物体の相互作用が存在するか、あるいは人間と物体の実際の位置を知らない。
文節から収集した人-物間相互作用による6.5k以上のビデオからなるデータセットを提案する。
ビデオデータセットのアノテーションに適応した弱教師付きベースラインの性能向上を実証した。
論文 参考訳(メタデータ) (2021-10-07T15:30:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。