論文の概要: MONKEY: Masking ON KEY-Value Activation Adapter for Personalization
- arxiv url: http://arxiv.org/abs/2510.07656v1
- Date: Thu, 09 Oct 2025 01:20:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.799698
- Title: MONKEY: Masking ON KEY-Value Activation Adapter for Personalization
- Title(参考訳): MONKEY: パーソナライゼーションのためのKEY値アクティベーションアダプタのマスキング
- Authors: James Baker,
- Abstract要約: パーソナライズのための一般的な方法として、IP-Adapterは、推論中に被写体を背景から分割するマスクを自動的に生成する。
我々は,この自動生成マスクを第2パスに使用して画像トークンをマスクし,背景ではなく被写体に制限することを提案する。
場所や場所を記述したテキストプロンプトに対して、プロンプトを確定的にマッチングしながら、対象を正確に描写する画像を生成する。
- 参考スコア(独自算出の注目度): 0.5076419064097734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalizing diffusion models allows users to generate new images that incorporate a given subject, allowing more control than a text prompt. These models often suffer somewhat when they end up just recreating the subject image, and ignoring the text prompt. We observe that one popular method for personalization, the IP-Adapter automatically generates masks that we definitively segment the subject from the background during inference. We propose to use this automatically generated mask on a second pass to mask the image tokens, thus restricting them to the subject, not the background, allowing the text prompt to attend to the rest of the image. For text prompts describing locations and places, this produces images that accurately depict the subject while definitively matching the prompt. We compare our method to a few other test time personalization methods, and find our method displays high prompt and source image alignment.
- Abstract(参考訳): 拡散モデルのパーソナライズにより、ユーザーは与えられた主題を含む新しい画像を生成することができ、テキストプロンプトよりも多くの制御が可能になる。
これらのモデルは、被写体イメージを再現し、テキストプロンプトを無視した時に、幾らか苦しむことが多い。
パーソナライズ手法の1つとしてIP-Adapterが自動的にマスクを生成し、推論中に被写体を背景から確定的に分割する。
我々は,この自動生成マスクを第2パスに使用して画像トークンをマスキングし,背景ではなく被写体に限定し,画像の残りの部分への参加を促すことを提案する。
場所や場所を記述したテキストプロンプトに対して、プロンプトを確定的にマッチングしながら、対象を正確に描写する画像を生成する。
本手法は他のテスト時間パーソナライズ手法と比較し,高いプロンプトとソース画像のアライメントを示す。
関連論文リスト
- Token Painter: Training-Free Text-Guided Image Inpainting via Mask Autoregressive Models [48.83801984368506]
我々は,Mask AutoRegressive(MAR)モデルに基づく,トレーニング不要なテキストガイド画像の描画手法を開発した。
提案手法では,(1)2つの鍵となる要素を紹介する:(1)Dual-Stream Information Fusion (DEIF) は,新しい誘導トークンを生成するために,周波数領域のテキストや背景からのセマンティック情報とコンテキスト情報を融合し,(2)適応デコーダのアタプティブ・スコア・エンハンシング (ADAE) は,誘導トークンのアテンションスコアを適応的に向上する。
論文 参考訳(メタデータ) (2025-09-28T14:48:52Z) - Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator [44.620847608977776]
ディプチッチ・プロンプティング(Diptych Prompting)は、被写体を正確にアライメントした塗装タスクとして再解釈する、新しいゼロショットアプローチである。
提案手法は主観的画像生成だけでなく, 主観的画像生成と主観的画像編集もサポートする。
論文 参考訳(メタデータ) (2024-11-23T06:17:43Z) - DiffSTR: Controlled Diffusion Models for Scene Text Removal [5.790630195329777]
Scene Text removed (STR) は、画像中のテキストの不正使用を防止することを目的としている。
STRは、バウンダリアーティファクト、一貫性のないテクスチャと色、正しいシャドウの保存など、いくつかの課題に直面している。
STRを塗装タスクとして扱う制御ネット拡散モデルを提案する。
拡散モデルを満たすためのマスク事前学習パイプラインを開発した。
論文 参考訳(メタデータ) (2024-10-29T04:20:21Z) - Mask-ControlNet: Higher-Quality Image Generation with An Additional Mask Prompt [34.880386778058075]
マスクプロンプトを導入し,Mask-ControlNetというフレームワークを開発した。
マスクは拡散モデルの制御性を高め、参照画像に対する高い忠実性を維持することを示す。
論文 参考訳(メタデータ) (2024-04-08T09:18:32Z) - Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。
我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文 参考訳(メタデータ) (2024-04-05T13:44:39Z) - PALP: Prompt Aligned Personalization of Text-to-Image Models [68.91005384187348]
既存のパーソナライズ手法は、パーソナライズ能力や複雑なプロンプトへのアライメントを損なう。
本稿では,この問題に対処するエフィンスル・プロンプトのためのパーソナライズ手法に着目した新しいアプローチを提案する。
本手法はテキストアライメントの改善に優れ,複雑かつ複雑なプロンプトによる画像作成を可能にする。
論文 参考訳(メタデータ) (2024-01-11T18:35:33Z) - Compositional Text-to-Image Synthesis with Attention Map Control of
Diffusion Models [8.250234707160793]
近年のテキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト・プロンプトを条件とした高品質な画像の生成に優れた性能を示す。
コンポジション機能に制限があるため、生成したイメージとプロンプトを意味的にアライメントすることができない。
本稿では,これらの問題に対処するために,予測オブジェクトボックスに基づく新しいアテンションマスク制御手法を提案する。
論文 参考訳(メタデータ) (2023-05-23T10:49:22Z) - StrucTexTv2: Masked Visual-Textual Prediction for Document Image
Pre-training [64.37272287179661]
StrucTexTv2は、効果的なドキュメントイメージ事前トレーニングフレームワークである。
マスク付き画像モデリングとマスク付き言語モデリングの2つの自己教師付き事前訓練タスクで構成されている。
画像分類、レイアウト解析、テーブル構造認識、ドキュメントOCR、情報抽出など、さまざまな下流タスクにおいて、競合的あるいは新しい最先端パフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-01T07:32:51Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - Text-to-Image Generation Grounded by Fine-Grained User Attention [62.94737811887098]
Localized Narrativesは、マウストレースと組み合わせた画像の詳細な自然言語記述を備えたデータセットである。
本稿では、このグラウンド化を利用して画像を生成するシーケンシャルモデルであるTReCSを提案する。
論文 参考訳(メタデータ) (2020-11-07T13:23:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。