論文の概要: HelloMeme: Integrating Spatial Knitting Attentions to Embed High-Level and Fidelity-Rich Conditions in Diffusion Models
- arxiv url: http://arxiv.org/abs/2410.22901v1
- Date: Wed, 30 Oct 2024 11:00:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:27:35.281210
- Title: HelloMeme: Integrating Spatial Knitting Attentions to Embed High-Level and Fidelity-Rich Conditions in Diffusion Models
- Title(参考訳): HelloMeme:拡散モデルにおける空間ニット注意点の埋め込み高レベルおよび忠実度リッチ条件への統合
- Authors: Shengkai Zhang, Nianhong Jiao, Tian Li, Chaojie Yang, Chenhui Xue, Boya Niu, Jun Gao,
- Abstract要約: テキスト・ツー・イメージ基礎モデルにアダプタを挿入する効果的な手法を提案する。
アダプタの性能を向上させる2次元特徴写像に関する注意機構を最適化する。
この作業は、大規模なテキスト・ツー・イメージモデルのトレーニング後のタスクに対する洞察を提供する。
- 参考スコア(独自算出の注目度): 12.092870347722965
- License:
- Abstract: We propose an effective method for inserting adapters into text-to-image foundation models, which enables the execution of complex downstream tasks while preserving the generalization ability of the base model. The core idea of this method is to optimize the attention mechanism related to 2D feature maps, which enhances the performance of the adapter. This approach was validated on the task of meme video generation and achieved significant results. We hope this work can provide insights for post-training tasks of large text-to-image models. Additionally, as this method demonstrates good compatibility with SD1.5 derivative models, it holds certain value for the open-source community. Therefore, we will release the related code (\url{https://songkey.github.io/hellomeme}).
- Abstract(参考訳): 本稿では,基本モデルの一般化能力を保ちながら,複雑な下流タスクの実行を可能にする,テキスト・ツー・イメージ基盤モデルにアダプタを挿入する効果的な手法を提案する。
本手法の中核となる考え方は,2次元特徴写像に関連する注意機構を最適化し,アダプタの性能を向上させることである。
このアプローチはミームビデオ生成のタスクで検証され、重要な結果を得た。
この研究によって、大規模なテキスト・ツー・イメージモデルのトレーニング後のタスクに対する洞察が得られればと思っています。
さらに、SD1.5デリバティブモデルとの良好な互換性を示すため、オープンソースコミュニティにはある程度の価値がある。
したがって、関連するコード(\url{https://songkey.github.io/hellomeme})をリリースします。
関連論文リスト
- AM Flow: Adapters for Temporal Processing in Action Recognition [6.67921694218089]
textitAttention Map (AM) Flowは、入力されたビデオフレーム内の動きに関連するピクセルを識別する手法である。
AMフローは空間的および時間的処理の分離を可能にし、時間的処理の組合せよりも改善された結果を提供する。
我々は、Kineetics-400、Something v2、Toyota Smarthomeのデータセットについて実験を行い、最先端または同等の結果を示す。
論文 参考訳(メタデータ) (2024-11-04T13:07:22Z) - MaxFusion: Plug&Play Multi-Modal Generation in Text-to-Image Diffusion Models [34.611309081801345]
大規模な拡散ベースのテキスト・ツー・イメージ(T2I)モデルでは、テキスト・ツー・イメージ生成に印象的な生成能力がある。
本稿では,最小限の計算量で新しいタスクにまたがって生成モデルを拡張するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-15T17:55:56Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance [69.0740091741732]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - How Good is the Model in Model-in-the-loop Event Coreference Resolution
Annotation? [3.712417884848568]
本稿では、イベントコア参照解決のためのモデル-in-the-loopアノテーションアプローチを提案する。
まずアノテーションプロセスのシミュレートを行い,新しいアノテータ中心のリコール・ワーク・トレードオフ・メトリックを用いて,基礎となるモデルとデータセットの結果を比較することにより,このアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-06T18:06:24Z) - PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling [83.67628239775878]
Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。
本稿では,画素再構成の観点からMIMの基本解析を行う。
我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
論文 参考訳(メタデータ) (2023-03-04T13:38:51Z) - Designing BERT for Convolutional Networks: Sparse and Hierarchical
Masked Modeling [23.164631160130092]
BERT型事前学習(仮面画像モデリング)の成功を畳み込みネットワーク(畳み込みネットワーク)に拡張する。
我々は、3次元点雲のスパースボクセルとして非マス化画素を扱い、スパース畳み込みを用いてエンコードする。
これは2次元マスクモデリングにおけるスパース畳み込みの最初の使用である。
論文 参考訳(メタデータ) (2023-01-09T18:59:50Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。