論文の概要: CoAR: Concept Injection into Autoregressive Models for Personalized Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2508.07341v1
- Date: Sun, 10 Aug 2025 13:36:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.817603
- Title: CoAR: Concept Injection into Autoregressive Models for Personalized Text-to-Image Generation
- Title(参考訳): CoAR:パーソナライズされたテキスト・画像生成のための自己回帰モデルへの概念注入
- Authors: Fangtai Wu, Mushui Liu, Weijie He, Wanggui He, Hao Jiang, Zhao Wang, Yunlong Yu,
- Abstract要約: CoARは、最小数のパラメータだけで有効で特定の主題表現を学習する。
実験により,CoARは主観的パーソナライゼーションとスタイルパーソナライゼーションの両方において優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 14.820840831692246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The unified autoregressive (AR) model excels at multimodal understanding and generation, but its potential for customized image generation remains underexplored. Existing customized generation methods rely on full fine-tuning or adapters, making them costly and prone to overfitting or catastrophic forgetting. In this paper, we propose \textbf{CoAR}, a novel framework for injecting subject concepts into the unified AR models while keeping all pre-trained parameters completely frozen. CoAR learns effective, specific subject representations with only a minimal number of parameters using a Layerwise Multimodal Context Learning strategy. To address overfitting and language drift, we further introduce regularization that preserves the pre-trained distribution and anchors context tokens to improve subject fidelity and re-contextualization. Additionally, CoAR supports training-free subject customization in a user-provided style. Experiments demonstrate that CoAR achieves superior performance on both subject-driven personalization and style personalization, while delivering significant gains in computational and memory efficiency. Notably, CoAR tunes less than \textbf{0.05\%} of the parameters while achieving competitive performance compared to recent Proxy-Tuning. Code: https://github.com/KZF-kzf/CoAR
- Abstract(参考訳): 統合自己回帰(AR)モデルはマルチモーダルな理解と生成に優れるが、カスタマイズされた画像生成の可能性はまだ探索されていない。
既存のカスタマイズされた生成方法は、完全な微調整やアダプタに依存しており、コストがかかり、過度な適合や破滅的な忘れがちである。
本稿では,すべての事前学習パラメータを凍結したまま,対象概念を統合ARモデルに注入する新しいフレームワークである「textbf{CoAR}」を提案する。
CoARは、Layerwise Multimodal Context Learning戦略を使用して、最小限のパラメータだけで有効で特定の主題表現を学習する。
オーバーフィッティングと言語ドリフトに対処するため,事前学習した分布を保存する正規化を導入し,コンテキストトークンをアンカーすることで,主観的忠実度と再コンテクスト化を改善する。
さらに、CoARはユーザーが提供するスタイルでトレーニング不要の主題のカスタマイズをサポートする。
実験により、CoARは主観的パーソナライゼーションとスタイルパーソナライゼーションの両方において優れた性能を示し、計算とメモリ効率に大きな向上をもたらす。
特に、CoARはパラメータの \textbf{0.05\%} 未満をチューニングする一方で、最近のプロキシチューニングと比較して競合的なパフォーマンスを実現している。
コード:https://github.com/KZF-kzf/CoAR
関連論文リスト
- EAR: Erasing Concepts from Unified Autoregressive Models [3.55166983092355]
本稿では,ARモデルにおける有効かつ有効に保存できる概念消去のための微調整手法であるErasure Autoregressive Model (EAR)を提案する。
具体的には、パッチレベルのデコードと消去対象との整合性を確保するために、Windowed Gradient Accumulation (WGA)戦略を導入する。
我々はまた、ARモデルにおける概念消去を評価するためのより厳密で包括的な基盤を提供することを目的として、新しいベンチマークであるErase Concept Generator and Visual Filter (ECGVF)を提案する。
論文 参考訳(メタデータ) (2025-06-25T06:15:07Z) - Train Once, Forget Precisely: Anchored Optimization for Efficient Post-Hoc Unlearning [0.0]
深層画像分類器におけるポストホックアンラーニングのための理論的基礎と計算効率のよいフレームワークであるtextbfForget-Aligned Model Reconstruction (FAMR) を導入する。
FAMRフレームは、モデルパラメータを元の値に固定しながら、忘れセット上の均一な予測損失を最小限に抑える制約付き最適化問題である。
CIFAR-10とImageNet-100 FAMRによるクラス忘れタスクの実証的な結果が得られた。
論文 参考訳(メタデータ) (2025-06-17T13:40:48Z) - Prompt-OT: An Optimal Transport Regularization Paradigm for Knowledge Preservation in Vision-Language Model Adaptation [5.296260279593993]
CLIPのような視覚言語モデル(VLM)は、強力なパフォーマンスを示すが、下流タスクに適応する際には苦労する。
本稿では,特徴分布の構造的整合性を保つことにより,忘れを軽減できる最適トランスポート(OT)誘導型プロンプト学習フレームワークを提案する。
提案手法は,視覚とテキスト表現の両面に制約を課し,全体的な特徴の整合性を確保する。
論文 参考訳(メタデータ) (2025-03-11T21:38:34Z) - Personalized Text Generation with Contrastive Activation Steering [63.60368120937822]
そこで本研究では,ベクタとしてパーソナライズされた書体スタイルを分離し,表現する学習自由フレームワークを提案する。
本フレームワークは,PEFT法よりも1700倍のストレージ要求を削減しつつ,パーソナライズ生成において,8%の相対的な改善を実現している。
論文 参考訳(メタデータ) (2025-03-07T08:07:15Z) - Hollowed Net for On-Device Personalization of Text-to-Image Diffusion Models [51.3915762595891]
本稿では、デバイス上での主観的生成のための効率的なLoRAに基づくパーソナライズ手法を提案する。
提案手法はHollowed Netと呼ばれ,拡散U-Netのアーキテクチャを変更することにより,微調整時のメモリ効率を向上させる。
論文 参考訳(メタデータ) (2024-11-02T08:42:48Z) - Randomized Autoregressive Visual Generation [26.195148077398223]
本稿では,視覚生成のためのランダム化自己回帰モデリング(RAR)を提案する。
RARは、言語モデリングフレームワークとの完全な互換性を維持しながら、画像生成タスクに最先端のパフォーマンスを新たに設定する。
ImageNet-256ベンチマークでは、RARはFIDスコアが1.48に達し、最先端の自己回帰画像生成装置に勝るだけでなく、拡散ベースおよびマスク付きトランスフォーマーベースの手法よりも優れている。
論文 参考訳(メタデータ) (2024-11-01T17:59:58Z) - Efficient and Versatile Robust Fine-Tuning of Zero-shot Models [34.27380518351181]
本稿では、下流タスクにゼロショットモデルを微調整する新しい手法であるRobust Adapter(R-Adapter)を紹介する。
本手法は, 軽量モジュールを事前学習モデルに統合し, OODロバスト性を高め, 保存コストを大幅に削減するために, 新たな自己アンサンブル技術を用いる。
実験により,R-Adapterは,CLIPエンコーダのパラメータの13%をチューニングし,タスクのさまざまなセットで最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2024-08-11T11:37:43Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Continual Diffusion with STAMINA: STack-And-Mask INcremental Adapters [67.28751868277611]
近年の研究では、テキストから画像への拡散モデルを複数の微細な概念に逐次的にカスタマイズできることが示されている。
我々は、新しいタスクを学習する能力が、長いシーケンスで飽和に達することを示す。
本稿では,低ランクの注意マーク付きアダプタとカスタマイズトークンからなるSTAMINA(STack-And-Mask Incremental Adapters)を提案する。
論文 参考訳(メタデータ) (2023-11-30T18:04:21Z) - ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs [56.85106417530364]
低ランク適応(LoRA)は概念駆動型パーソナライゼーションを実現するためのパラメータ効率のよい方法として提案されている。
我々は、独立に訓練されたスタイルと主題のLoRAを安価かつ効果的にマージするZipLoRAを提案する。
実験により、ZipLoRAは主観とスタイルの忠実さのベースラインよりも有意義な改善を施した魅力的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-22T18:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。