論文の概要: Negative-Guided Subject Fidelity Optimization for Zero-Shot Subject-Driven Generation
- arxiv url: http://arxiv.org/abs/2506.03621v1
- Date: Wed, 04 Jun 2025 06:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.191131
- Title: Negative-Guided Subject Fidelity Optimization for Zero-Shot Subject-Driven Generation
- Title(参考訳): ゼロショットな被写体駆動生成のための負誘導型被写体忠実度最適化
- Authors: Chaehun Shin, Jooyoung Choi, Johan Barthelemy, Jungbeom Lee, Sungroh Yoon,
- Abstract要約: 本稿では,ゼロショットな被写体駆動生成のための新しい比較学習フレームワークである主観的忠実度最適化(SFO)を提案する。
負のターゲットに対する条件劣化負サンプリング(CDNS)を提案する。
CDNSを持つSFOは、主観的忠実度とテキストアライメントの両方において、ベースラインを著しく上回ることを示した。
- 参考スコア(独自算出の注目度): 41.88237450556626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Subject Fidelity Optimization (SFO), a novel comparative learning framework for zero-shot subject-driven generation that enhances subject fidelity. Beyond supervised fine-tuning methods that rely only on positive targets and use the diffusion loss as in the pre-training stage, SFO introduces synthetic negative targets and explicitly guides the model to favor positives over negatives through pairwise comparison. For negative targets, we propose Condition-Degradation Negative Sampling (CDNS), which automatically generates distinctive and informative negatives by intentionally degrading visual and textual cues without expensive human annotations. Moreover, we reweight the diffusion timesteps to focus finetuning on intermediate steps where subject details emerge. Extensive experiments demonstrate that SFO with CDNS significantly outperforms baselines in terms of both subject fidelity and text alignment on a subject-driven generation benchmark. Project page: https://subjectfidelityoptimization.github.io/
- Abstract(参考訳): 本稿では,主観的忠実度を向上するゼロショット主観的生成のための新しい比較学習フレームワークである主観的忠実度最適化(SFO)を提案する。
SFOは、正の目標にのみ依存し、事前学習段階のように拡散損失を使用する教師付き微調整法以外にも、合成陰性目標を導入し、ペア比較により正よりも正を優先するようにモデルを明確に誘導する。
負の目標に対して,高額なアノテーションを使わずに視覚的・テキスト的手がかりを意図的に劣化させることにより,特徴的・情報的否定を自動生成する条件劣化負サンプリング(CDNS)を提案する。
さらに,拡散時間ステップを再重み付けし,被写体の詳細が現れる中間ステップに微調整を集中させる。
CDNSを持つSFOは、主観的忠実度とテキストアライメントの両方において、主観駆動型生成ベンチマークにおいて、ベースラインを著しく上回ることを示した。
プロジェクトページ: https://subjectfidelityoptimization.github.io/
関連論文リスト
- Intuitionistic Fuzzy Sets for Large Language Model Data Annotation: A Novel Approach to Side-by-Side Preference Labeling [0.0]
本稿では,多言語モデル(LLM)における人間の嗜好をモデル化・集約するための直観的ファジィ集合(IFS)に基づく新しい枠組みを提案する。
我々のアプローチは、選好の度合いだけでなく、メンバーシップ、非メンバーシップ、およびヒューイテーションの度合いを通じて、人間の判断に固有の不確実性や偏見も捉えている。
複数のデータセットに対する実験的検証は、我々のIFSベースのアプローチがアノテーションの一貫性を大幅に改善し、アノテータの疲労を低減し、高品質な嗜好データを生成することを示した。
論文 参考訳(メタデータ) (2025-05-30T04:20:00Z) - Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文 参考訳(メタデータ) (2025-05-27T13:30:46Z) - Self-NPO: Negative Preference Optimization of Diffusion Models by Simply Learning from Itself without Explicit Preference Annotations [60.143658714894336]
拡散モデルは、画像、ビデオ、および3Dコンテンツ生成を含む様々な視覚生成タスクにおいて顕著な成功を収めている。
優先度最適化(PO)は、これらのモデルを人間の嗜好に合わせることを目的とした、顕著で成長している研究分野である。
モデル自体からのみ学習する負の選好最適化アプローチであるSelf-NPOを導入する。
論文 参考訳(メタデータ) (2025-05-17T01:03:46Z) - Negative-Prompt-driven Alignment for Generative Language Model [34.191590966148816]
本稿では,言語モデルが望ましくない行動から遠ざかるように,NEGative-prompt-driven AlignmenTを提案する。
NEATは有害なアウトプットを生成するためのモデルを明確に罰し、望ましい行動だけでなく、望ましくない偏見のある反応を発生させないよう仕向けている。
大規模な実験により、NEATは言語モデルと人間の価値観と嗜好との整合性を著しく向上させる効果を検証した。
論文 参考訳(メタデータ) (2024-10-16T03:30:09Z) - Extensive Self-Contrast Enables Feedback-Free Language Model Alignment [29.268993281961695]
自己コントラスト(Self-Contrast)は、大規模な自己生成陰性を利用するフィードバックフリーな大規模言語モデルアライメント手法である。
教師付き微調整(SFT)ターゲットのみを用いて、Self-Contrastはトレーニング済みの埋め込みモデルを使用して、テキストの類似性に応じて複数の負をフィルタリングする。
3つのデータセット上で直接選好最適化(DPO)を用いた実験により、Self-ContrastはSFTおよび標準DPOトレーニングを大きなマージンで一貫して上回ることを示した。
論文 参考訳(メタデータ) (2024-03-31T08:30:15Z) - Negating Negatives: Alignment with Human Negative Samples via Distributional Dispreference Optimization [37.8788435790632]
大規模言語モデル(LLM)は、AIの役割に革命をもたらしたが、潜在的な社会的リスクをもたらしている。
既存の方法は高品質な正負の訓練ペアに依存しており、ノイズの多い正の反応に悩まされており、負の反応とほとんど区別できない。
本稿では,非参照応答と生成した非負応答との差を最大化する分散参照最適化(D$2$O)を提案する。
論文 参考訳(メタデータ) (2024-03-06T03:02:38Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。