Fugu-MT 論文翻訳(概要): VirtualModel: Generating Object-ID-retentive Human-object Interaction Image by Diffusion Model for E-commerce Marketing

論文の概要: VirtualModel: Generating Object-ID-retentive Human-object Interaction Image by Diffusion Model for E-commerce Marketing

arxiv url: http://arxiv.org/abs/2405.09985v1
Date: Thu, 16 May 2024 11:05:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-17 14:31:57.699371
Title: VirtualModel: Generating Object-ID-retentive Human-object Interaction Image by Diffusion Model for E-commerce Marketing
Title（参考訳）: VirtualModel:Eコマースマーケティングのための拡散モデルによるオブジェクト-ID-リテーティブな人間-オブジェクトインタラクション画像の生成
Authors: Binghui Chen, Chongyang Zhong, Wangmeng Xiang, Yifeng Geng, Xuansong Xie,
Abstract要約: Controlnet[36]、T2I-adapter[20]、HumanSD[10]といった既存の作品では、ポーズ条件に基づいて人間の画像を生成する優れた能力を示している。本稿では,まず,eコマースマーケティングのための新たなヒューマン画像生成タスク,すなわち,オブジェクトID拘束型ヒューマンオブジェクトインタラクション画像生成(OHG)を定義する。本稿では,製品カテゴリの表示や,人間とオブジェクトのインタラクションのタイプをサポートする,製品用のヒューマンイメージを生成するためのVirtualModelフレームワークを提案する。
参考スコア（独自算出の注目度）: 20.998016266794952
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Due to the significant advances in large-scale text-to-image generation by diffusion model (DM), controllable human image generation has been attracting much attention recently. Existing works, such as Controlnet [36], T2I-adapter [20] and HumanSD [10] have demonstrated good abilities in generating human images based on pose conditions, they still fail to meet the requirements of real e-commerce scenarios. These include (1) the interaction between the shown product and human should be considered, (2) human parts like face/hand/arm/foot and the interaction between human model and product should be hyper-realistic, and (3) the identity of the product shown in advertising should be exactly consistent with the product itself. To this end, in this paper, we first define a new human image generation task for e-commerce marketing, i.e., Object-ID-retentive Human-object Interaction image Generation (OHG), and then propose a VirtualModel framework to generate human images for product shown, which supports displays of any categories of products and any types of human-object interaction. As shown in Figure 1, VirtualModel not only outperforms other methods in terms of accurate pose control and image quality but also allows for the display of user-specified product objects by maintaining the product-ID consistency and enhancing the plausibility of human-object interaction. Codes and data will be released.
Abstract（参考訳）: 拡散モデル (DM) による大規模テキスト・画像生成の大幅な進歩により, 制御可能な人体画像生成が近年注目されている。 Controlnet [36]、T2I-adapter [20]、HumanSD [10]といった既存の作品では、ポーズ条件に基づいて人間の画像を生成する優れた能力を示しており、実際のeコマースシナリオの要件を満たしていない。それらには、(1)表示された製品と人間の相互作用を考慮し、(2)顔・手・足などの人的部分と人的モデルと製品との相互作用を超現実的にし、(3)広告で示される商品の同一性は、製品そのものと正確に一致すべきである。そこで本稿では,まず,eコマースマーケティングのための新たなヒューマンイメージ生成タスク,すなわち,オブジェクト-ID-Retentive Human-object Interaction Image Generation (OHG)を定義し,その上で,製品カテゴリの表示や,さまざまなタイプのヒューマンオブジェクトインタラクションをサポートする,製品のためのヒューマンイメージを生成するVirtualModelフレームワークを提案する。図1に示すように、VirtualModelは、正確なポーズ制御と画質の点で他の手法よりも優れているだけでなく、製品とIDの整合性を維持し、人間とオブジェクトの相互作用の妥当性を高めることで、ユーザ特定製品オブジェクトの表示を可能にします。コードとデータはリリースされます。

関連論文リスト

HOComp: Interaction-Aware Human-Object Composition [62.93211305213214]
HOCompは、人中心の背景画像に前景オブジェクトを合成するための新しいアプローチである。実験結果から,HOCompは一貫した外見を持つ人間と物体の相互作用を効果的に生成することが示された。
論文参考訳（メタデータ） (2025-07-22T17:59:21Z)
DreamActor-H1: High-Fidelity Human-Product Demonstration Video Generation via Motion-designed Diffusion Transformers [30.583932208752877]
電子商取引とデジタルマーケティングでは、高忠実な人間製品デモビデオを生成することが重要である。人間のアイデンティティと製品固有の詳細を保存するための拡散変換器(DiT)ベースのフレームワークを提案する。我々は3Dボディーメッシュテンプレートと製品バウンディングボックスを用いて、正確な動作ガイダンスを提供し、手ジェスチャーと製品配置の直感的なアライメントを可能にする。
論文参考訳（メタデータ） (2025-06-12T10:58:23Z)
EVA: Expressive Virtual Avatars from Multi-view Videos [51.33851869426057]
本稿では,アクター固有の,完全に制御可能な,表現力のある人間のアバターフレームワークであるExpressive Virtual Avatars (EVA)を紹介する。 EVAは、表情、身体の動き、手の動きの独立的な制御を可能にしながら、高忠実でライフライクなレンダリングをリアルタイムで実現している。この研究は、完全に乾燥可能なデジタル人間モデルに向けた大きな進歩を示している。
論文参考訳（メタデータ） (2025-05-21T11:22:52Z)
Zero-Shot Human-Object Interaction Synthesis with Multimodal Priors [31.277540988829976]
本稿では,現在限定されている3次元HOIデータセットのエンドツーエンドトレーニングに頼ることなく,新しいゼロショットHOI合成フレームワークを提案する。我々は、事前訓練された人間のポーズ推定モデルを用いて、人間のポーズを抽出し、一般化可能なカテゴリレベルの6-DoF推定手法を導入し、2次元HOI画像からオブジェクトポーズを求める。
論文参考訳（メタデータ） (2025-03-25T23:55:47Z)
TriDi: Trilateral Diffusion of 3D Humans, Objects, and Interactions [33.58559068016724]
本稿では,3次元オブジェクト間相互作用(HOI)をモデル化するための最初の統一モデルを提案する。我々は,新しい3方向拡散プロセスと同時に,人・物・相互作用のモダリティを生成する。本稿では,TriDiをシーン群に適用し,人間と接触したデータセットのオブジェクトを生成し,オブジェクトの幾何学を一般化する。
論文参考訳（メタデータ） (2024-12-09T09:35:05Z)
AnchorCrafter: Animate Cyber-Anchors Selling Your Products via Human-Object Interacting Video Generation [40.81246588724407]
アンカースタイルの製品プロモーションビデオは、eコマース、広告、消費者エンゲージメントにおいて有望な機会を提供する。 AnchorCrafterは、ターゲットの人間とカスタマイズされたオブジェクトを特徴とする2Dビデオを生成するために設計された、新しい拡散ベースのシステムである。本稿では,物体の外観認識を任意の視点から拡張するHOI-appearance Recognitionと,複雑な人間と物体の相互作用を可能にするHOI-motion Injectionという2つの重要なイノベーションを提案する。
論文参考訳（メタデータ） (2024-11-26T12:42:13Z)
Single Image, Any Face: Generalisable 3D Face Generation [59.9369171926757]
我々は,制約のない単一画像入力を伴う3次元顔を生成する新しいモデルGen3D-Faceを提案する。私たちの知る限りでは、これは1枚の画像からフォトリアリスティックな3D顔アバターを作るための最初の試みであり、ベンチマークである。
論文参考訳（メタデータ） (2024-09-25T14:56:37Z)
Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。我々は500人以上の参加者から行動データの35万件の試行を収集した。次に、一般的な視覚モデルの性能を評価する。
論文参考訳（メタデータ） (2024-09-09T17:59:13Z)
CapHuman: Capture Your Moments in Parallel Universes [60.06408546134581]
CapHumanという新しいフレームワークを紹介します。 CapHumanはアイデンティティ機能をエンコードし、それを潜在空間に整列させることを学ぶ。モデルに人間の頭部を柔軟で3D一貫性のある方法で制御させる前に、3D顔を導入する。
論文参考訳（メタデータ） (2024-02-01T14:41:59Z)
Template Free Reconstruction of Human-object Interaction with Procedural Interaction Generation [38.08445005326031]
提案するProciGenは,多種多様なオブジェクトの相互作用と対話性の両方で,プロシージャ的にデータセットを生成する。我々は3Dで1M以上の人間と物体の相互作用ペアを生成し、この大規模データを利用してHDM(Procedural Diffusion Model)を訓練する。我々のHDMは、現実的な相互作用と高精度な人間と物体の形状の両方を学習する画像条件拡散モデルである。
論文参考訳（メタデータ） (2023-12-12T08:32:55Z)
Cross-view and Cross-pose Completion for 3D Human Understanding [22.787947086152315]
画像のみを用いて人間中心のデータを扱う自己教師付き学習に基づく事前学習手法を提案する。身体中心タスクのためのモデルと手中心タスクのためのモデルを事前訓練する。汎用的なトランスフォーマーアーキテクチャでは、これらのモデルは、広範囲の人間中心の下流タスクにおいて、既存の自己教師付き事前学習方法より優れている。
論文参考訳（メタデータ） (2023-11-15T16:51:18Z)
HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion [114.15397904945185]
本稿では,高リアリズムと多彩なレイアウトの人体画像を生成する統一的なフレームワークHyperHumanを提案する。本モデルは,統合ネットワークにおける画像の外観,空間的関係,幾何学の連成学習を強制する。我々のフレームワークは最先端の性能を生み出し、多様なシナリオ下で超現実的な人間の画像を生成する。
論文参考訳（メタデータ） (2023-10-12T17:59:34Z)
Hand-Object Interaction Image Generation [135.87707468156057]
この仕事は、新しいタスク、すなわち手動オブジェクトのインタラクション画像生成に特化している。与えられた手、オブジェクト、それらの相互作用状態の下で、条件付きハンドオブジェクト画像を生成することを目的としている。このタスクは、AR/VRゲームやオンラインショッピングなど、多くの潜在的なアプリケーションシナリオにおいて、挑戦的で研究に値するものだ。
論文参考訳（メタデータ） (2022-11-28T18:59:57Z)
Reconstructing Action-Conditioned Human-Object Interactions Using Commonsense Knowledge Priors [42.17542596399014]
本稿では,画像から人-物間相互作用の多種多様な3次元モデルを推定する手法を提案する。提案手法は,大規模言語モデルから高レベルのコモンセンス知識を抽出する。本研究では,大規模な人-物間相互作用データセットを用いて,推定された3次元モデルを定量的に評価する。
論文参考訳（メタデータ） (2022-09-06T13:32:55Z)
AvatarGen: a 3D Generative Model for Animatable Human Avatars [108.11137221845352]
アバタージェネレーション(AvatarGen)は、多様な外観を持つ非剛体世代だけでなく、ポーズや視点の完全な制御を可能にする最初の方法である。非剛性力学をモデル化するために、正準空間におけるポーズ依存的な変形を学習するための変形ネットワークを導入する。提案手法は,高品質な外観と幾何モデルを備えたアニマタブルな人体アバターを生成でき,従来の3D GANよりも大幅に優れていた。
論文参考訳（メタデータ） (2022-08-01T01:27:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。