論文の概要: Draw Your Mind: Personalized Generation via Condition-Level Modeling in Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2508.03481v1
- Date: Tue, 05 Aug 2025 14:14:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:56.003421
- Title: Draw Your Mind: Personalized Generation via Condition-Level Modeling in Text-to-Image Diffusion Models
- Title(参考訳): 心を描く: テキスト-画像拡散モデルにおける条件レベルモデリングによるパーソナライズドジェネレーション
- Authors: Hyungjin Kim, Seokho Ahn, Young-Duk Seo,
- Abstract要約: 本稿では,ユーザプロファイリングをトランスフォーマーベースのアダプタと統合し,パーソナライズ可能なDrUMを提案する。
DrUMは大規模なデータセットで強力なパフォーマンスを示し、オープンソースのテキストエンコーダとシームレスに統合する。
- 参考スコア(独自算出の注目度): 5.282669911393826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized generation in T2I diffusion models aims to naturally incorporate individual user preferences into the generation process with minimal user intervention. However, existing studies primarily rely on prompt-level modeling with large-scale models, often leading to inaccurate personalization due to the limited input token capacity of T2I diffusion models. To address these limitations, we propose DrUM, a novel method that integrates user profiling with a transformer-based adapter to enable personalized generation through condition-level modeling in the latent space. DrUM demonstrates strong performance on large-scale datasets and seamlessly integrates with open-source text encoders, making it compatible with widely used foundation T2I models without requiring additional fine-tuning.
- Abstract(参考訳): T2I拡散モデルにおけるパーソナライズド生成は、個々のユーザの好みを最小限のユーザ介入で生成プロセスに自然に組み込むことを目的としている。
しかし、既存の研究は主に大規模モデルによる迅速なモデリングに依存しており、しばしばT2I拡散モデルの入力トークン容量の制限により不正確なパーソナライゼーションをもたらす。
これらの制約に対処するため,ユーザプロファイリングをトランスフォーマーベースのアダプタと統合し,潜在空間における条件レベルのモデリングによるパーソナライズ生成を可能にするDrUMを提案する。
DrUMは大規模なデータセットで強力なパフォーマンスを示し、オープンソースのテキストエンコーダとシームレスに統合する。
関連論文リスト
- Masked Conditioning for Deep Generative Models [0.0]
生成モデルが疎結合な混合型データを扱うことを可能にする新しいマスク条件付き手法を提案する。
限られたデータに基づいて訓練された小さなモデルと、事前訓練された大規模な基礎モデルを組み合わせることで、生成品質を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-05-22T14:33:03Z) - DMM: Building a Versatile Image Generation Model via Distillation-Based Model Merging [32.97010533998294]
スタイルベクトルの制御の下で任意のスタイルの画像を正確に生成できる、スタイルプロンプタブルな画像生成パイプラインを提案する。
この設計に基づいて,複数のモデルを1つの汎用T2Iモデルに圧縮する,スコア蒸留に基づくモデルマージパラダイム(DMM)を提案する。
実験により、DMMは複数の教師モデルからの知識をコンパクトに再構成し、制御可能な任意のスタイルの生成を実現することができることを示した。
論文 参考訳(メタデータ) (2025-04-16T15:09:45Z) - Differentially Private Adaptation of Diffusion Models via Noisy Aggregated Embeddings [23.687702204151872]
Textual Inversion (TI)は、画像や画像の集合に対する埋め込みベクトルを学習し、差分プライバシー制約の下で適応を可能にする。
DPAgg-TIはDP-SGDファインタニングを同一のプライバシー予算の下で実用性と堅牢性の両方で上回ることを示す。
論文 参考訳(メタデータ) (2024-11-22T00:09:49Z) - Structured Pattern Expansion with Diffusion Models [6.726377308248659]
拡散モデルの最近の進歩は、材料、テクスチャ、および3次元形状の合成を著しく改善した。
本稿では、拡散モデルが一般に信頼性が低く、より重要なことに、制御不能な構造的定常パターンの合成に対処する。
これにより、ユーザは入力の構造と詳細を保存しながら、部分的に手書きのパターンをより大きなデザインに拡張することで、合成を直接制御することができる。
論文 参考訳(メタデータ) (2024-11-12T18:39:23Z) - Minority-Focused Text-to-Image Generation via Prompt Optimization [57.319845580050924]
本稿では,事前訓練されたテキスト・ツー・イメージ(T2I)潜時拡散モデルを用いて,少数サンプルの生成について検討する。
我々は、推論中に所望のプロパティの出現を促すオンラインプロンプト最適化フレームワークを開発する。
次に、この一般的なプロンプト分布を、マイノリティな特徴の生成を促進する特別な解法へと調整する。
論文 参考訳(メタデータ) (2024-10-10T11:56:09Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Towards Robust and Efficient Cloud-Edge Elastic Model Adaptation via Selective Entropy Distillation [56.79064699832383]
Cloud-Edge Elastic Model Adaptation (CEMA)パラダイムを確立し、エッジモデルが前方伝播のみを実行するようにします。
CEMAでは,通信負担を軽減するため,不要なサンプルをクラウドにアップロードすることを避けるための2つの基準を考案した。
論文 参考訳(メタデータ) (2024-02-27T08:47:19Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - $λ$-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space [61.091910046492345]
$lambda$-ECLIPSEは、拡散UNetモデルに頼ることなく、事前訓練されたCLIPモデルの潜在空間で動作する。
$lambda$-ECLIPSEは、たった34Mパラメータでマルチオブジェクト駆動のP-T2Iを実行し、わずか74GPU時間でトレーニングされる。
論文 参考訳(メタデータ) (2024-02-07T19:07:10Z) - Towards Aligned Layout Generation via Diffusion Model with Aesthetic Constraints [53.66698106829144]
広い範囲のレイアウト生成タスクを処理する統一モデルを提案する。
このモデルは連続拡散モデルに基づいている。
実験結果から,LACEは高品質なレイアウトを生成することがわかった。
論文 参考訳(メタデータ) (2024-02-07T11:12:41Z) - I2V-Adapter: A General Image-to-Video Adapter for Diffusion Models [80.32562822058924]
テキスト誘導画像合成(I2V)は、入力画像の同一性を保持するコヒーレントなビデオを生成することを目的としている。
I2V-Adapterは、クロスフレームアテンション機構を介して、未通知の入力画像を後続のノイズフレームに適応的に伝搬する。
実験の結果,I2V-Adapterは高品質な動画を制作できることがわかった。
論文 参考訳(メタデータ) (2023-12-27T19:11:50Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Jointly Training Large Autoregressive Multimodal Models [37.32912103934043]
本稿では,既存のテキストと画像生成モデルを体系的に融合するモジュール方式であるJAMフレームワークを提案する。
また、混合モーダル生成タスクに適した、特殊的でデータ効率の高い命令チューニング戦略も導入する。
最後のインストラクションチューニングモデルは、高品質なマルチモーダル出力を生成する際の非並列性能を示す。
論文 参考訳(メタデータ) (2023-09-27T10:40:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。