論文の概要: HelloMeme: Integrating Spatial Knitting Attentions to Embed High-Level and Fidelity-Rich Conditions in Diffusion Models
- arxiv url: http://arxiv.org/abs/2410.22901v1
- Date: Wed, 30 Oct 2024 11:00:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:27:35.281210
- Title: HelloMeme: Integrating Spatial Knitting Attentions to Embed High-Level and Fidelity-Rich Conditions in Diffusion Models
- Title(参考訳): HelloMeme:拡散モデルにおける空間ニット注意点の埋め込み高レベルおよび忠実度リッチ条件への統合
- Authors: Shengkai Zhang, Nianhong Jiao, Tian Li, Chaojie Yang, Chenhui Xue, Boya Niu, Jun Gao,
- Abstract要約: テキスト・ツー・イメージ基礎モデルにアダプタを挿入する効果的な手法を提案する。
アダプタの性能を向上させる2次元特徴写像に関する注意機構を最適化する。
この作業は、大規模なテキスト・ツー・イメージモデルのトレーニング後のタスクに対する洞察を提供する。
- 参考スコア(独自算出の注目度): 12.092870347722965
- License:
- Abstract: We propose an effective method for inserting adapters into text-to-image foundation models, which enables the execution of complex downstream tasks while preserving the generalization ability of the base model. The core idea of this method is to optimize the attention mechanism related to 2D feature maps, which enhances the performance of the adapter. This approach was validated on the task of meme video generation and achieved significant results. We hope this work can provide insights for post-training tasks of large text-to-image models. Additionally, as this method demonstrates good compatibility with SD1.5 derivative models, it holds certain value for the open-source community. Therefore, we will release the related code (\url{https://songkey.github.io/hellomeme}).
- Abstract(参考訳): 本稿では,基本モデルの一般化能力を保ちながら,複雑な下流タスクの実行を可能にする,テキスト・ツー・イメージ基盤モデルにアダプタを挿入する効果的な手法を提案する。
本手法の中核となる考え方は,2次元特徴写像に関連する注意機構を最適化し,アダプタの性能を向上させることである。
このアプローチはミームビデオ生成のタスクで検証され、重要な結果を得た。
この研究によって、大規模なテキスト・ツー・イメージモデルのトレーニング後のタスクに対する洞察が得られればと思っています。
さらに、SD1.5デリバティブモデルとの良好な互換性を示すため、オープンソースコミュニティにはある程度の価値がある。
したがって、関連するコード(\url{https://songkey.github.io/hellomeme})をリリースします。
関連論文リスト
- Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [77.86514804787622]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - Towards Compatible Fine-tuning for Vision-Language Model Updates [114.25776195225494]
クラス条件付きコンテキスト最適化(ContCoOp)は、学習可能なプロンプトと、テキストエンコーダに入力する前に注意層を使用してクラス埋め込みを統合する。
15のデータセットで実験した結果,ContCoOpはベースライン法よりも高い互換性を示し,分布外一般化の堅牢性を示すことがわかった。
論文 参考訳(メタデータ) (2024-12-30T12:06:27Z) - Fusion Embedding for Pose-Guided Person Image Synthesis with Diffusion Model [2.7708222692419735]
Pose-Guided Person Image Synthesis (PGPIS) は、ターゲットポーズに対応する高品質な人物画像の合成を目的としている。
ほとんどのアプローチでは、ターゲットポーズとソースイメージの表現を抽出する。
拡散モデル(FPDM)を用いたPGPISの融合埋め込みを提案する。
論文 参考訳(メタデータ) (2024-12-10T09:25:01Z) - MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models [34.611309081801345]
大規模な拡散ベースのテキスト・ツー・イメージ(T2I)モデルでは、テキスト・ツー・イメージ生成に印象的な生成能力がある。
本稿では,最小限の計算量で新しいタスクにまたがって生成モデルを拡張するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-15T17:55:56Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance [69.0740091741732]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - How Good is the Model in Model-in-the-loop Event Coreference Resolution
Annotation? [3.712417884848568]
本稿では、イベントコア参照解決のためのモデル-in-the-loopアノテーションアプローチを提案する。
まずアノテーションプロセスのシミュレートを行い,新しいアノテータ中心のリコール・ワーク・トレードオフ・メトリックを用いて,基礎となるモデルとデータセットの結果を比較することにより,このアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-06T18:06:24Z) - PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling [83.67628239775878]
Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。
本稿では,画素再構成の観点からMIMの基本解析を行う。
我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
論文 参考訳(メタデータ) (2023-03-04T13:38:51Z) - Designing BERT for Convolutional Networks: Sparse and Hierarchical
Masked Modeling [23.164631160130092]
BERT型事前学習(仮面画像モデリング)の成功を畳み込みネットワーク(畳み込みネットワーク)に拡張する。
我々は、3次元点雲のスパースボクセルとして非マス化画素を扱い、スパース畳み込みを用いてエンコードする。
これは2次元マスクモデリングにおけるスパース畳み込みの最初の使用である。
論文 参考訳(メタデータ) (2023-01-09T18:59:50Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。