Fugu-MT 論文翻訳(概要): PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models

論文の概要: PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models

arxiv url: http://arxiv.org/abs/2312.13964v1
Date: Thu, 21 Dec 2023 15:51:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-22 14:18:57.607814
Title: PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models
Title（参考訳）: PIA: テキスト・ツー・イメージモデルにおけるプラグイン・アンド・プレイモジュールによるパーソナライズされた画像アニメーション
Authors: Yiming Zhang, Zhening Xing, Yanhong Zeng, Youqing Fang, Kai Chen
Abstract要約: PIAは、条件画像との整合性、テキストによる動作制御性、および特定のチューニングなしで様々なパーソナライズされたT2Iモデルとの互換性に優れる。 PIAのキーコンポーネントは条件モジュールの導入であり、入力として条件フレームとフレーム間の親和性を利用する。
参考スコア（独自算出の注目度）: 15.725210392693564
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in personalized text-to-image (T2I) models have revolutionized content creation, empowering non-experts to generate stunning images with unique styles. While promising, adding realistic motions into these personalized images by text poses significant challenges in preserving distinct styles, high-fidelity details, and achieving motion controllability by text. In this paper, we present PIA, a Personalized Image Animator that excels in aligning with condition images, achieving motion controllability by text, and the compatibility with various personalized T2I models without specific tuning. To achieve these goals, PIA builds upon a base T2I model with well-trained temporal alignment layers, allowing for the seamless transformation of any personalized T2I model into an image animation model. A key component of PIA is the introduction of the condition module, which utilizes the condition frame and inter-frame affinity as input to transfer appearance information guided by the affinity hint for individual frame synthesis in the latent space. This design mitigates the challenges of appearance-related image alignment within and allows for a stronger focus on aligning with motion-related guidance.
Abstract（参考訳）: パーソナライズされたテキスト・ツー・イメージ(T2I)モデルの最近の進歩は、コンテンツ作成に革命をもたらした。有望だが、これらのパーソナライズされた画像にテキストでリアルな動きを加えることは、異なるスタイル、忠実度の詳細を保持し、テキストによる動き制御性を達成する上で大きな課題となる。本稿では,条件画像との整合性,テキストによる動作制御性,特定のチューニングを伴わずにパーソナライズされたt2iモデルとの互換性を実現する,パーソナライズされた画像アニメーターであるpiaを提案する。これらの目標を達成するため、PIAは、よく訓練された時間的アライメント層を持つベースT2Iモデルを構築し、パーソナライズされたT2Iモデルをイメージアニメーションモデルにシームレスに変換することができる。 PIAのキーコンポーネントは、条件フレームとフレーム間の親和性を入力として利用する条件モジュールの導入であり、潜時空間における個々のフレーム合成のための親和性ヒントによって案内される外見情報を転送する。このデザインは、外観関連画像アライメントの課題を軽減し、モーション関連ガイダンスとのアライメントに焦点を絞ることができる。

関連論文リスト

DynamiCtrl: Rethinking the Basic Structure and the Role of Text for High-quality Human Image Animation [63.781450025764904]
DynamiCtrlはMM-DiTで異なるポーズ誘導構造を探索する新しいフレームワークである。適応層正規化を利用してスパースポーズ特徴を符号化するPose-Adaptive Layer Norm (PadaLN)を提案する。テキストを活用することで、生成したコンテンツのきめ細かい制御を可能にするだけでなく、初めて背景と動きの同時制御を実現する。
論文参考訳（メタデータ） (2025-03-27T08:07:45Z)
Compose Your Aesthetics: Empowering Text-to-Image Models with the Principles of Art [61.28133495240179]
本稿では,ユーザが特定した美学をT2I生成出力と整合させることを目的とした,美学アライメントの新しい課題を提案する。アートワークが美学にアプローチするための貴重な視点を提供する方法にインスパイアされた私たちは、構成的枠組みのアーティストが採用する視覚的美学を定式化した。我々は,T2I DMが,ユーザが特定したPoA条件により10の合成制御を効果的に提供することを実証した。
論文参考訳（メタデータ） (2025-03-15T06:58:09Z)
IC-Portrait: In-Context Matching for View-Consistent Personalized Portrait [51.18967854258571]
IC-Portraitは、パーソナライズされた肖像画生成のために個々のアイデンティティを正確にエンコードするように設計された新しいフレームワークである。我々の重要な洞察は、事前学習された拡散モデルは、文脈内密対応マッチングのための高速学習者であるということである。我々は,IC-Portraitが既存の最先端手法を定量的かつ質的に一貫的に上回っていることを示す。
論文参考訳（メタデータ） (2025-01-28T18:59:03Z)
MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models [51.1034358143232]
本稿では,テキスト・ツー・イメージ(T2I)モデルの境界を押し上げる新しいタスクであるコンポーネント・コントロール可能なパーソナライゼーションを提案する。これらの課題を克服するために、動的マスケード分解(DM-Deg)を活用して、望ましくない視覚的セマンティクスを動的に摂動させる革新的なフレームワークであるMagicTailorを設計する。
論文参考訳（メタデータ） (2024-10-17T09:22:53Z)
Imagine yourself: Tuning-Free Personalized Image Generation [39.63411174712078]
私たちは、パーソナライズされた画像生成用に設計された最先端のモデルであるImagine yourselfを紹介します。チューニング不要のモデルとして機能し、個別に調整することなく、すべてのユーザが共有フレームワークを活用できる。我々の研究は、Imagine自身が最先端のパーソナライズモデルを超え、アイデンティティ保存、視覚的品質、テキストアライメントにおいて優れた能力を示すことを示した。
論文参考訳（メタデータ） (2024-09-20T09:21:49Z)
Layout-and-Retouch: A Dual-stage Framework for Improving Diversity in Personalized Image Generation [40.969861849933444]
1)レイアウト生成と2)リタッチの2段階からなる,Layout-and-Retouchと呼ばれる新しいP-T2I手法を提案する。ステップブレンド推論では,バニラT2Iモデル固有のサンプルの多様性を利用して,多様なレイアウト画像を生成する。第2段階では、マルチソースアテンションは、第1ステージからのコンテキスト画像を参照画像に置き換え、コンテキスト画像から構造を活用し、参照画像から視覚的特徴を抽出する。
論文参考訳（メタデータ） (2024-07-13T05:28:45Z)
Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文参考訳（メタデータ） (2024-07-03T08:15:39Z)
OSTAF: A One-Shot Tuning Method for Improved Attribute-Focused T2I Personalization [9.552325786494334]
個人化されたテキスト・ツー・イメージ(T2I)のパーソナライズのためのパラメータ効率の高いワンショット微調整手法を提案する。様々な属性特徴の正確な学習を実現するために,ハイパネットワークによる属性中心の微調整機構が導入された。提案手法は属性識別と適用において大きな優位性を示すとともに,効率と出力品質のバランスが良好であることを示す。
論文参考訳（メタデータ） (2024-03-17T01:42:48Z)
Direct Consistency Optimization for Compositional Text-to-Image Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文参考訳（メタデータ） (2024-02-19T09:52:41Z)
AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning [92.33690050667475]
AnimateDiffは、モデル固有のチューニングを必要とせずに、パーソナライズされたT2Iモデルをアニメーションするためのフレームワークである。我々は,AnimateDiffの軽量微調整技術であるMotionLoRAを提案する。その結果,これらのモデルが視覚的品質と動きの多様性を保ちながら,時間的にスムーズなアニメーションクリップを生成するのに有効であることが示唆された。
論文参考訳（メタデータ） (2023-07-10T17:34:16Z)
TaleCrafter: Interactive Story Visualization with Multiple Characters [49.14122401339003]
本稿では,ジェネリック・インタラクティブ・ストーリー・ビジュアライゼーションシステムを提案する。複数の新しい文字を扱うことができ、レイアウトと局所構造の編集をサポートする。システムは、ストーリー・ツー・プロンプト・ジェネレーション(S2P)、テキスト・ツー・ジェネレーション(T2L)、制御可能なテキスト・ツー・イメージ・ジェネレーション(C-T2I)、画像・トゥ・ビデオ・アニメーション(I2V)の4つの相互接続コンポーネントからなる。
論文参考訳（メタデータ） (2023-05-29T17:11:39Z)
Key-Locked Rank One Editing for Text-to-Image Personalization [43.195870616558935]
本稿では,基礎となるT2Iモデルの動的ランク1更新による課題に対処するT2Iパーソナライズ手法であるPerfusionを提案する。 Perfusionは、新しい概念のクロスアテンションキーをそれらのスーパーオーディネートカテゴリに"ロックする"新しいメカニズムを導入することで、過度な適合を避ける。 Perfusionは質的・量的両面で強いベースラインを上回ります。
論文参考訳（メタデータ） (2023-05-02T17:56:06Z)
Make It Move: Controllable Image-to-Video Generation with Text Descriptions [69.52360725356601]
TI2Vタスクは、静的画像とテキスト記述からビデオを生成することを目的としている。これらの課題に対処するために,革新的なアンカー構造を持つモーションアンカー型ビデオGEnerator (MAGE) を提案する。データセットで行った実験は、MAGEの有効性を検証するとともに、TI2Vタスクの魅力を示す。
論文参考訳（メタデータ） (2021-12-06T07:00:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。