論文の概要: Let Triggers Control: Frequency-Aware Dropout for Effective Token Control
- arxiv url: http://arxiv.org/abs/2603.27199v1
- Date: Sat, 28 Mar 2026 08:55:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.844362
- Title: Let Triggers Control: Frequency-Aware Dropout for Effective Token Control
- Title(参考訳): トリガー制御:効果的なトークン制御のための周波数対応ドロップアウト
- Authors: Junyoung Koh, Hoyeon Moon, Dongha Kim, Seungmin Lee, Sanghyun Park, Min Song,
- Abstract要約: 我々は新しいパラメータを追加することなく制御性を改善するために周波数対応ドロップアウト(FAD)を提案する。
FADは、共起分析とカリキュラムにインスパイアされたスケジューリングの2つの重要なコンポーネントで構成されている。
本手法は,テキスト・ツー・イメージ生成における制御性とパーソナライズを向上する,シンプルで効果的なドロップアウト戦略を提供する。
- 参考スコア(独自算出の注目度): 8.72880783870241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image models such as Stable Diffusion have achieved unprecedented levels of high-fidelity visual synthesis. As these models advance, personalization of generative models -- commonly facilitated through Low-Rank Adaptation (LoRA) with a dedicated trigger token -- has become a significant area of research. Previous works have naively assumed that fine-tuning with a single trigger token to represent new concepts. However, this often results in poor controllability, where the trigger token alone fails to reliably evoke the intended concept. We attribute this issue to the frequent co-occurrence of the trigger token with the surrounding context during fine-tuning, which entangles their representations and compromises the token's semantic distinctiveness. To disentangle this, we propose Frequency-Aware Dropout (FAD) -- a novel regularization technique that improves prompt controllability without adding new parameters. FAD consists of two key components: co-occurrence analysis and curriculum-inspired scheduling. Qualitative and quantitative analyses across token-based diffusion models (SD~1.5 and SDXL) and natural language--driven backbones (FLUX and Qwen-Image) demonstrate consistent gains in prompt fidelity, stylistic precision, and user-perceived quality. Our method provides a simple yet effective dropout strategy that enhances controllability and personalization in text-to-image generation. Notably, it achieves these improvements without introducing additional parameters or architectural modifications, making it readily applicable to existing models with minimal computational overhead.
- Abstract(参考訳): 安定拡散のようなテキストと画像のモデルは、前例のない高忠実度視覚合成を実現している。
これらのモデルが進歩するにつれて、ローランド適応(LoRA)を通じて一般的に促進される生成モデルのパーソナライズが、重要な研究領域となっている。
これまでの研究では、新しい概念を表現するために単一のトリガートークンで微調整をしていた。
しかし、これは多くの場合、トリガートークンだけで意図した概念を確実に引き起こさない、制御性に欠ける。
この問題は、トリガートークンが微調整中に周囲のコンテキストと頻繁に共起し、それらの表現が絡み合い、トークンの意味的特徴を損なうためである。
これを回避するために、新しいパラメータを追加することなく、迅速な制御性を向上する新しい正規化手法である周波数対応ドロップアウト(FAD)を提案する。
FADは、共起分析とカリキュラムにインスパイアされたスケジューリングの2つの重要なコンポーネントで構成されている。
トークンベースの拡散モデル(SD~1.5およびSDXL)と自然言語駆動のバックボーン(FLUXおよびQwen-Image)の質的および定量的分析は、迅速な忠実さ、スタイリスティックな精度、およびユーザ知覚品質において一貫した向上を示す。
本手法は,テキスト・ツー・イメージ生成における制御性とパーソナライズを向上する,シンプルで効果的なドロップアウト戦略を提供する。
特に、追加のパラメータやアーキテクチャの変更を導入することなくこれらの改善を実現し、計算オーバーヘッドが最小限である既存のモデルにも容易に適用できます。
関連論文リスト
- CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization [122.88484422855934]
本稿では,MeanFlowデコーダを備えた1次元因果画像トークンであるCaTokを紹介する。
時間間隔でトークンを選択することで、CaTokは高速なワンステップ生成と高忠実なマルチステップサンプリングの両方をサポートする因果1D表現を学ぶ。
実験により、CaTokはImageNet再構成の最先端の結果を達成し、0.75 FID、22.53 PSNR、0.674 SSIMに達した。
論文 参考訳(メタデータ) (2026-03-06T16:39:17Z) - Efficient Conditional Generation on Scale-based Visual Autoregressive Models [26.81493253536486]
効率的な制御モデル(英語: Efficient Control Model、ECM)は、分散アーキテクチャを介して制御信号を導入する軽量制御モジュールを備えたプラグイン・アンド・プレイフレームワークである。
ECMは、リアルタイムに生成されたトークンと、その限られた容量の利用を最大化するために設計された共有フィードフォワードネットワーク(FFN)を用いて、条件付き機能を洗練する。
提案手法は,既存のベースラインを越えつつ,トレーニングと推論の効率を大幅に向上させるとともに,画像生成に対する高忠実かつ多様な制御を実現する。
論文 参考訳(メタデータ) (2025-10-07T06:27:03Z) - REAR: Rethinking Visual Autoregressive Models via Generator-Tokenizer Consistency Regularization [130.46612643194973]
reARはトークン単位の正規化目標を導入する単純なトレーニング戦略です。
ImageNetでは、gFIDを3.02から1.86に削減し、標準化ベースのトークンーザを使用してISを316.9に改善している。
高度なトークン化器に適用すると、177Mパラメータしか持たない1.42のgFIDが達成され、その性能はより大きな最先端拡散モデル(675M)と一致する。
論文 参考訳(メタデータ) (2025-10-06T02:48:13Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z) - FELLE: Autoregressive Speech Synthesis with Token-Wise Coarse-to-Fine Flow Matching [56.30231216917128]
FELLEは、言語モデリングとトークンワイドフローマッチングを統合する自動回帰モデルである。
各連続値トークンに対して、FELLEは、前ステップからの情報を組み込んで、フローマッチングにおける一般的な事前分布を変更する。
FELLEは、言語モデルの出力に基づいて階層的に連続値のトークンを生成する。
論文 参考訳(メタデータ) (2025-02-16T13:54:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。