論文の概要: Score Replacement with Bounded Deviation for Rare Prompt Generation
- arxiv url: http://arxiv.org/abs/2505.20808v3
- Date: Sun, 28 Sep 2025 04:37:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.310643
- Title: Score Replacement with Bounded Deviation for Rare Prompt Generation
- Title(参考訳): 希少プロンプト生成のための境界偏差によるスコアリプレース
- Authors: Bo-Kai Ruan, Zi-Xiang Ni, Bo-Lun Huang, Teng-Fang Hsiao, Hong-Han Shuai,
- Abstract要約: 拡散モデルはしばしば、トレーニング分布にしばしば現れる稀な概念に苦しむ。
スコア交換のレンズを通してレアプロンプト生成を再構成する。
境界偏差基準を導入し、偏差が閾値を超えるとスイッチをトリガーする。
- 参考スコア(独自算出の注目度): 23.717085162530804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models achieve impressive performance in high-fidelity image generation but often struggle with rare concepts that appear infrequently in the training distribution. Prior work attempts to address this issue by prompt switching, where generation begins with a frequent proxy prompt and later transitions to the original rare prompt. However, such designs typically rely on fixed schedules that disregard the model's internal dynamics, making them brittle across prompts and backbones. In this paper, we re-frame rare prompt generation through the lens of score replacement: the denoising trajectory of a rare prompt can be initially guided by the score of a semantically related frequent prompt, which acts as a proxy. However, as the process unfolds, the proxy score gradually diverges from the true rare prompt score. To control this drift, we introduce a bounded deviation criterion that triggers the switch once the deviation exceeds a threshold. This formulation offers both a principled justification and a practical mechanism for rare prompt generation, enabling adaptive switching that can be widely adopted by different models. Extensive experiments across SDXL, SD3, Flux, and Sana confirm that our method consistently improves rare concept synthesis, outperforming strong baselines in both automated metrics and human evaluations.
- Abstract(参考訳): 拡散モデルは高忠実度画像生成において顕著な性能を達成するが、トレーニング分布にしばしば現れる稀な概念に苦慮することが多い。
以前の作業では、プロンプトスイッチングによってこの問題に対処しようとしており、生成は頻繁なプロキシプロンプトから始まり、後に元のレアプロンプトに遷移する。
しかしながら、そのような設計はモデルの内部力学を無視した固定されたスケジュールに依存しており、プロンプトやバックボーンにまたがって不安定である。
本稿では,レアプロンプトの発音軌跡を,代用として機能するセマンティックな頻繁なプロンプトのスコアによって導出する。
しかし、プロセスが展開するにつれて、プロキシスコアは真のレアプロンプトスコアから徐々に分離する。
このドリフトを制御するために、偏差が閾値を超えるとスイッチをトリガーする有界偏差基準を導入する。
この定式化は、原則化された正当化とレアプロンプト生成の実践的なメカニズムの両方を提供し、異なるモデルで広く採用可能な適応的な切替を可能にする。
SDXL, SD3, Flux, Sanaを対象とする大規模な実験により、我々の手法は希少な概念合成を一貫して改善し、自動測定と人的評価の両方において強力なベースラインを上回ります。
関連論文リスト
- Can We Achieve Efficient Diffusion without Self-Attention? Distilling Self-Attention into Convolutions [94.21989689001848]
従来の自己アテンションモジュールをピラミッド畳み込みブロック((Delta)ConvBlocks)に置き換えるための(Delta)ConvFusionを提案する。
ローカライズされた畳み込み操作に注意パターンを蒸留し、他のコンポーネントを凍結させながら、(Delta)ConvFusionは、トランスフォーマーベースの処理に匹敵する性能を達成し、計算コストを6929$times$、LinFusionを5.42$times$の効率で上回る。
論文 参考訳(メタデータ) (2025-04-30T03:57:28Z) - Dynamical Diffusion: Learning Temporal Dynamics with Diffusion Models [71.63194926457119]
動的拡散(DyDiff, Dynamical Diffusion)は, 時間的に意識された前と逆のプロセスを含む理論的に健全なフレームワークである。
科学的時間的予測、ビデオ予測、時系列予測に関する実験は、動的拡散が時間的予測タスクのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-03-02T16:10:32Z) - GAS: Generative Avatar Synthesis from a Single Image [54.95198111659466]
一つの画像からビュー一貫性と時間的コヒーレントなアバターを合成するための、一般化可能で統一されたフレームワークを導入する。
提案手法は, 回帰に基づく3次元再構成と拡散モデルの生成能力を組み合わせることで, このギャップを埋めるものである。
論文 参考訳(メタデータ) (2025-02-10T19:00:39Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - Parallelly Tempered Generative Adversarial Networks [7.94957965474334]
生成的敵対ネットワーク(GAN)は、生成的人工知能(AI)における代表的バックボーンモデルである。
本研究は,モード崩壊の存在下でのトレーニングの不安定性と非効率性を,対象分布におけるマルチモーダルにリンクすることで解析する。
新たに開発したGAN目標関数により, 生成元は同時に全ての誘電分布を学習することができる。
論文 参考訳(メタデータ) (2024-11-18T18:01:13Z) - Diffusing States and Matching Scores: A New Framework for Imitation Learning [16.941612670582522]
敵対的模倣学習は伝統的に、学習者と敵対的に選択されたコスト関数の間の2つのプレイヤーゼロサムゲームとしてフレーム化されている。
拡散モデルは、回帰を通じてスコア関数を訓練することだけを必要とするGANの非敵対的な代替品として登場した。
提案手法は, GANスタイルの模倣学習ベースラインと差別化なし模倣学習ベースラインの両方を, 連続制御問題に比較して優れていることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:25Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Exploring Compositional Visual Generation with Latent Classifier
Guidance [19.48538300223431]
我々は、潜在表現生成の非線形ナビゲーションを容易にするために、潜時拡散モデルと補助潜時分類器を訓練する。
潜在分類器ガイダンスにより達成された条件付き生成は、トレーニング中の条件付きログ確率の低い境界を確実に最大化することを示す。
遅延分類器誘導に基づくこのパラダイムは、事前学習された生成モデルに非依存であり、実画像と合成画像の逐次的操作と画像生成の両面での競合結果を示す。
論文 参考訳(メタデータ) (2023-04-25T03:02:58Z) - Evade the Trap of Mediocrity: Promoting Diversity and Novelty in Text
Generation via Concentrating Attention [85.5379146125199]
強力なトランスフォーマーアーキテクチャは高品質な文を生成するのに優れていることが証明されている。
本研究では,Transformerにおけるスペーサーの注意値が多様性を向上させることを発見した。
注意分布のシャープさを制御するために,新しい注意正規化損失を導入する。
論文 参考訳(メタデータ) (2022-11-14T07:53:16Z) - The Transitive Information Theory and its Application to Deep Generative
Models [0.0]
変分オートエンコーダ(VAE)は2つの反対方向に押される。
既存の方法では、圧縮と再構成の間のレート歪みのトレードオフに問題を絞り込む。
一般化のために学習した表現を再結合する機構とともに,非交叉表現の階層構造を学習するシステムを開発する。
論文 参考訳(メタデータ) (2022-03-09T22:35:02Z) - Counterfactual Generative Networks [59.080843365828756]
画像生成過程を直接監督せずに訓練する独立した因果機構に分解することを提案する。
適切な誘導バイアスを活用することによって、これらのメカニズムは物体の形状、物体の質感、背景を解き放つ。
その結果, 偽画像は, 元の分類タスクにおける性能の低下を伴い, 分散性が向上することが示された。
論文 参考訳(メタデータ) (2021-01-15T10:23:12Z) - A reinforcement learning approach to rare trajectory sampling [0.0]
非定型事象を効率的にサンプリングするダイナミクスを適応的に構築する一般的な手法を提案する。
我々は、最適な振る舞いを見つけることを目的とした機械学習手法のセットを指す強化学習(RL)の手法を利用する。
ここでは、連続時間マルコフ系、第一通過時間問題、非マルコフ力学などのアイデアの自然な拡張について論じる。
論文 参考訳(メタデータ) (2020-05-26T17:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。