論文の概要: PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2312.13964v2
- Date: Fri, 22 Mar 2024 13:25:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 22:10:49.238961
- Title: PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models
- Title(参考訳): PIA: テキスト・ツー・イメージモデルにおけるプラグイン・アンド・プレイモジュールによるパーソナライズされた画像アニメーション
- Authors: Yiming Zhang, Zhening Xing, Yanhong Zeng, Youqing Fang, Kai Chen,
- Abstract要約: PIAは、条件画像との整合性、テキストによる動作制御性、および特定のチューニングなしで様々なパーソナライズされたT2Iモデルとの互換性に優れる。
PIAのキーコンポーネントは条件モジュールの導入であり、入力として条件フレームとフレーム間の親和性を利用する。
- 参考スコア(独自算出の注目度): 14.657472801570284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in personalized text-to-image (T2I) models have revolutionized content creation, empowering non-experts to generate stunning images with unique styles. While promising, adding realistic motions into these personalized images by text poses significant challenges in preserving distinct styles, high-fidelity details, and achieving motion controllability by text. In this paper, we present PIA, a Personalized Image Animator that excels in aligning with condition images, achieving motion controllability by text, and the compatibility with various personalized T2I models without specific tuning. To achieve these goals, PIA builds upon a base T2I model with well-trained temporal alignment layers, allowing for the seamless transformation of any personalized T2I model into an image animation model. A key component of PIA is the introduction of the condition module, which utilizes the condition frame and inter-frame affinity as input to transfer appearance information guided by the affinity hint for individual frame synthesis in the latent space. This design mitigates the challenges of appearance-related image alignment within and allows for a stronger focus on aligning with motion-related guidance.
- Abstract(参考訳): パーソナライズされたテキスト・ツー・イメージ(T2I)モデルの最近の進歩は、コンテンツ作成に革命をもたらした。
有望な一方で、これらのパーソナライズされたイメージにテキストでリアルなモーションを加えることは、異なるスタイルの保存、高忠実さの詳細、テキストによるモーションコントロール性の実現において大きな課題となる。
本稿では,Personalized Image Animator,Personalized Image Animatorについて述べる。
これらの目標を達成するため、PIAは、よく訓練された時間的アライメント層を持つベースT2Iモデルを構築し、パーソナライズされたT2Iモデルをイメージアニメーションモデルにシームレスに変換することができる。
PIAのキーコンポーネントは、条件フレームとフレーム間の親和性を入力として利用する条件モジュールの導入であり、潜時空間における個々のフレーム合成のための親和性ヒントによって案内される外見情報を転送する。
このデザインは、外観関連画像アライメントの課題を軽減し、動き関連ガイダンスとの整合性により強く焦点を合わせることができる。
関連論文リスト
- PoseAnimate: Zero-shot high fidelity pose controllable character animation [89.74818983864832]
画像対ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。
既存のアプローチは、キャラクタの外観上の矛盾と細部保存の貧弱さに悩まされている。
文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文 参考訳(メタデータ) (2024-04-21T14:43:31Z) - OSTAF: A One-Shot Tuning Method for Improved Attribute-Focused T2I Personalization [9.552325786494334]
個人化されたテキスト・ツー・イメージ(T2I)のパーソナライズのためのパラメータ効率の高いワンショット微調整手法を提案する。
様々な属性特徴の正確な学習を実現するために,ハイパネットワークによる属性中心の微調整機構が導入された。
提案手法は属性識別と適用において大きな優位性を示すとともに,効率と出力品質のバランスが良好であることを示す。
論文 参考訳(メタデータ) (2024-03-17T01:42:48Z) - Customize-A-Video: One-Shot Motion Customization of Text-to-Video
Diffusion Models [50.65904921917907]
本研究では,単一参照ビデオからの動作をモデル化し,空間的・時間的変化のある新しい主題やシーンに適応するCustomize-A-Videoを提案する。
提案手法は、カスタムビデオ生成や編集、映像の外観のカスタマイズ、複数動作の組み合わせなど、様々な下流タスクに容易に拡張できる。
論文 参考訳(メタデータ) (2024-02-22T18:38:48Z) - Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - PICTURE: PhotorealistIC virtual Try-on from UnconstRained dEsigns [25.209863457090506]
人体画像にパーソナライズされた合成衣料の合成を可能にするために,制約のないデザイン(ucVTON)の新たな仮想試行を提案する。
特定の入力タイプに制約された先行技術とは異なり、本手法はスタイル(テクスチャまたはイメージ)とテクスチャ(フルウェア、クロップされたセクション、テクスチャパッチ)のフレキシブルな仕様化を可能にする。
論文 参考訳(メタデータ) (2023-12-07T18:53:18Z) - AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models
without Specific Tuning [92.33690050667475]
AnimateDiffは、モデル固有のチューニングを必要とせずに、パーソナライズされたT2Iモデルをアニメーションするためのフレームワークである。
我々は,AnimateDiffの軽量微調整技術であるMotionLoRAを提案する。
その結果,これらのモデルが視覚的品質と動きの多様性を保ちながら,時間的にスムーズなアニメーションクリップを生成するのに有効であることが示唆された。
論文 参考訳(メタデータ) (2023-07-10T17:34:16Z) - TaleCrafter: Interactive Story Visualization with Multiple Characters [49.14122401339003]
本稿では,ジェネリック・インタラクティブ・ストーリー・ビジュアライゼーションシステムを提案する。
複数の新しい文字を扱うことができ、レイアウトと局所構造の編集をサポートする。
システムは、ストーリー・ツー・プロンプト・ジェネレーション(S2P)、テキスト・ツー・ジェネレーション(T2L)、制御可能なテキスト・ツー・イメージ・ジェネレーション(C-T2I)、画像・トゥ・ビデオ・アニメーション(I2V)の4つの相互接続コンポーネントからなる。
論文 参考訳(メタデータ) (2023-05-29T17:11:39Z) - Key-Locked Rank One Editing for Text-to-Image Personalization [29.95327093661035]
本稿では,基礎となるT2Iモデルの動的ランク1更新による課題に対処するT2Iパーソナライズ手法であるPerfusionを提案する。
Perfusionは、新しい概念のクロスアテンションキーをそれらのスーパーオーディネートカテゴリに"ロックする"新しいメカニズムを導入することで、過度な適合を避ける。
Perfusionは質的・量的両面で強いベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-02T17:56:06Z) - Make It Move: Controllable Image-to-Video Generation with Text
Descriptions [69.52360725356601]
TI2Vタスクは、静的画像とテキスト記述からビデオを生成することを目的としている。
これらの課題に対処するために,革新的なアンカー構造を持つモーションアンカー型ビデオGEnerator (MAGE) を提案する。
データセットで行った実験は、MAGEの有効性を検証するとともに、TI2Vタスクの魅力を示す。
論文 参考訳(メタデータ) (2021-12-06T07:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。