論文の概要: Learning Complex Non-Rigid Image Edits from Multimodal Conditioning
- arxiv url: http://arxiv.org/abs/2412.10219v1
- Date: Fri, 13 Dec 2024 15:41:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:02:36.785052
- Title: Learning Complex Non-Rigid Image Edits from Multimodal Conditioning
- Title(参考訳): マルチモーダルコンディショニングによる複雑な非デジタル画像編集の学習
- Authors: Nikolai Warner, Jack Kolb, Meera Hahn, Vighnesh Birodkar, Jonathan Huang, Irfan Essa,
- Abstract要約: 我々は、与えられた人間(具体的には人の1つのイメージ)を新しいシーンに挿入することに集中する。
安定拡散の上に構築された本手法は,テキストとポーズを高度に制御し,自然な画像を生成する。
身元保存は「夢中」の場面、特に人と物体が相互作用する場面において、より困難な課題であることを示す。
- 参考スコア(独自算出の注目度): 18.500715348636582
- License:
- Abstract: In this paper we focus on inserting a given human (specifically, a single image of a person) into a novel scene. Our method, which builds on top of Stable Diffusion, yields natural looking images while being highly controllable with text and pose. To accomplish this we need to train on pairs of images, the first a reference image with the person, the second a "target image" showing the same person (with a different pose and possibly in a different background). Additionally we require a text caption describing the new pose relative to that in the reference image. In this paper we present a novel dataset following this criteria, which we create using pairs of frames from human-centric and action-rich videos and employing a multimodal LLM to automatically summarize the difference in human pose for the text captions. We demonstrate that identity preservation is a more challenging task in scenes "in-the-wild", and especially scenes where there is an interaction between persons and objects. Combining the weak supervision from noisy captions, with robust 2D pose improves the quality of person-object interactions.
- Abstract(参考訳): 本稿では,与えられた人間(具体的には人の1つのイメージ)を新たなシーンに挿入することに焦点を当てる。
安定拡散の上に構築された本手法は,テキストとポーズを高度に制御し,自然な画像を生成する。
これを実現するには、まずは人物との参照イメージ、次には同一人物(異なるポーズとおそらく異なる背景を持つ)を示す「ターゲットイメージ」をトレーニングする必要があります。
さらに、参照画像のそれに対する新しいポーズを記述するテキストキャプションも必要です。
本稿では,人間中心ビデオとアクションリッチビデオから一対のフレームを作成し,テキストキャプションに対する人間のポーズの違いを自動的に要約するマルチモーダルLCMを用いて,この基準に従う新しいデータセットを提案する。
身元保存は「夢中」の場面、特に人と物体が相互作用する場面において、より困難な課題であることを示す。
ノイズのあるキャプションからの弱い監督と頑健な2次元のポーズを組み合わせることで、人と物体の相互作用の質が向上する。
関連論文リスト
- PoseEmbroider: Towards a 3D, Visual, Semantic-aware Human Pose Representation [38.958695275774616]
検索方式で訓練された新しいトランスフォーマーモデルを導入し、上記のモダリティの組み合わせを任意の入力として利用できるようにする。
本稿では,(1)オプションのテキストキューによる画像からのSMPL回帰と(2)きめ細かな命令生成のタスクに対する,そのような埋め込みされたポーズ表現の可能性を示す。
論文 参考訳(メタデータ) (2024-09-10T14:09:39Z) - Text2Place: Affordance-aware Text Guided Human Placement [26.041917073228483]
この研究は、textbfSemantic Human Placementと呼ばれる背景シーンにおける現実的な人間の挿入の問題に取り組む。
セマンティックマスクの学習には,テキストから画像への生成モデルから学習したリッチなオブジェクトシーンの先行情報を活用する。
提案手法は,背景と被写体を保存しながら,リアルなシーン構成を生成することができる。
論文 参考訳(メタデータ) (2024-07-22T08:00:06Z) - UniHuman: A Unified Model for Editing Human Images in the Wild [49.896715833075106]
実環境における画像編集の複数の側面に対処する統一モデルUniHumanを提案する。
モデルの生成品質と一般化能力を向上させるために,人間の視覚エンコーダからのガイダンスを利用する。
ユーザスタディでは、UniHumanは平均して77%のケースでユーザに好まれる。
論文 参考訳(メタデータ) (2023-12-22T05:00:30Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - Pose Guided Multi-person Image Generation From Text [15.15576618501609]
既存の手法は、高忠実度フルボディ画像、特に複数の人物を作成するのに苦労している。
本稿では,追加入力制約としてポーズを用いたポーズ誘導型テキスト・ツー・イメージモデルを提案する。
Deepfashionデータセットに結果を示し、新しい複数人Deepfashionデータセットを作成し、このアプローチのマルチ能力を実証する。
論文 参考訳(メタデータ) (2022-03-09T17:38:03Z) - Hallucinating Pose-Compatible Scenes [55.064949607528405]
ポーズ条件付きシーン生成のための大規模生成対向ネットワークを提案する。
毎日の環境に1900万フレーム以上の人間がいる巨大なメタデータをキュレートします。
我々は、ポーズ互換シーンを人間の有無に関わらず幻覚化し、不整合シーンやポーズを可視化し、1つの生成された画像から別のシーンに人物を配置し、ポーズをアニメーションする様々な用途に、トレーニングされたモデルを活用する。
論文 参考訳(メタデータ) (2021-12-13T18:59:26Z) - Who's Waldo? Linking People Across Text and Images [56.40556801773923]
人中心の視覚的接地のためのタスクとベンチマークデータセットを提案する。
我々の新しいタスクは、こうした画像キャプチャーペアで訓練された方法が文脈的手がかりに焦点を合わせるように、キャプション内の人々の名前をマスクする。
本稿では,このタスクにおけるいくつかの強いベースラインを上回り,トランスフォーマーに基づく手法を提案する。
論文 参考訳(メタデータ) (2021-08-16T17:36:49Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Wish You Were Here: Context-Aware Human Generation [100.51309746913512]
本稿では,既存の画像にオブジェクト,特に人間を挿入する新しい手法を提案する。
本手法では, 現場の他の人物のポーズを考慮し, まず, 新たな人物のセマンティックマップを生成する。
第2のネットワークは、複数の外観成分の仕様に基づいて、新規人物とそのブレンディングマスクの画素を描画する。
第3のネットワークは、対象者の顔と一致するように生成された顔を洗練する。
論文 参考訳(メタデータ) (2020-05-21T14:09:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。