論文の概要: Negative-Guided Subject Fidelity Optimization for Zero-Shot Subject-Driven Generation
- arxiv url: http://arxiv.org/abs/2506.03621v2
- Date: Tue, 30 Sep 2025 08:58:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 19:34:21.396945
- Title: Negative-Guided Subject Fidelity Optimization for Zero-Shot Subject-Driven Generation
- Title(参考訳): ゼロショットな被写体駆動生成のための負誘導型被写体忠実度最適化
- Authors: Chaehun Shin, Jooyoung Choi, Johan Barthelemy, Jungbeom Lee, Sungroh Yoon,
- Abstract要約: 本稿では,ゼロショットな被写体駆動生成のための新しい比較学習フレームワークである主観的忠実度最適化(SFO)を提案する。
SFOは、ペアワイズ比較を通じて、ネガティブよりもポジティブを好むようモデルに導出する。
負の目標に対して、主観的生成に適した合成陰性を自動生成する条件劣化負サンプリング(CDNS)を提案する。
- 参考スコア(独自算出の注目度): 52.18071720309418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Subject Fidelity Optimization (SFO), a novel comparative learning framework for zero-shot subject-driven generation that enhances subject fidelity. Existing supervised fine-tuning methods, which rely only on positive targets and use the diffusion loss as in the pre-training stage, often fail to capture fine-grained subject details. To address this, SFO introduces additional synthetic negative targets and explicitly guides the model to favor positives over negatives through pairwise comparison. For negative targets, we propose Condition-Degradation Negative Sampling (CDNS), which automatically produces synthetic negatives tailored for subject-driven generation by introducing controlled degradations that emphasize subject fidelity and text alignment without expensive human annotations. Moreover, we reweight the diffusion timesteps to focus fine-tuning on intermediate steps where subject details emerge. Extensive experiments demonstrate that SFO with CDNS significantly outperforms recent strong baselines in terms of both subject fidelity and text alignment on a subject-driven generation benchmark. Project page: https://subjectfidelityoptimization.github.io/
- Abstract(参考訳): 本稿では,主観的忠実度を向上するゼロショット主観的生成のための新しい比較学習フレームワークである主観的忠実度最適化(SFO)を提案する。
既存の教師付き微調整法は、正の目標にのみ依存し、事前訓練段階のように拡散損失を使用するが、しばしば細かな被検体の詳細を捉えることができない。
この問題に対処するため、SFOは追加の合成陰性目標を導入し、ペア比較によって正よりも正を優先するようにモデルを明示的にガイドする。
負の目標に対する条件分解陰性サンプリング(CDNS)は,高額なアノテーションを使わずに対象の忠実さとテキストアライメントを強調する制御された劣化を導入することで,主観的生成に適した合成陰性を自動的に生成する。
さらに,拡散時間ステップを再重み付けし,対象詳細が現れる中間ステップに微調整を集中させる。
CDNSを持つSFOは、主観的忠実度とテキストアライメントの両方において、主観駆動型生成ベンチマークにおいて、最近の強いベースラインを著しく上回ることを示した。
プロジェクトページ: https://subjectfidelityoptimization.github.io/
関連論文リスト
- Intuitionistic Fuzzy Sets for Large Language Model Data Annotation: A Novel Approach to Side-by-Side Preference Labeling [0.0]
本稿では,多言語モデル(LLM)における人間の嗜好をモデル化・集約するための直観的ファジィ集合(IFS)に基づく新しい枠組みを提案する。
我々のアプローチは、選好の度合いだけでなく、メンバーシップ、非メンバーシップ、およびヒューイテーションの度合いを通じて、人間の判断に固有の不確実性や偏見も捉えている。
複数のデータセットに対する実験的検証は、我々のIFSベースのアプローチがアノテーションの一貫性を大幅に改善し、アノテータの疲労を低減し、高品質な嗜好データを生成することを示した。
論文 参考訳(メタデータ) (2025-05-30T04:20:00Z) - Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文 参考訳(メタデータ) (2025-05-27T13:30:46Z) - StarFT: Robust Fine-tuning of Zero-shot Models via Spuriosity Alignment [70.87096576708898]
本稿では,ゼロショットモデルの微調整を行うフレームワークであるStarFTを提案する。
StarFTはウォーターバードグループのシフトシナリオにおいて、それぞれ14.30%、平均精度を3.02%向上させる。
論文 参考訳(メタデータ) (2025-05-19T15:15:35Z) - Self-NPO: Negative Preference Optimization of Diffusion Models by Simply Learning from Itself without Explicit Preference Annotations [60.143658714894336]
拡散モデルは、画像、ビデオ、および3Dコンテンツ生成を含む様々な視覚生成タスクにおいて顕著な成功を収めている。
優先度最適化(PO)は、これらのモデルを人間の嗜好に合わせることを目的とした、顕著で成長している研究分野である。
モデル自体からのみ学習する負の選好最適化アプローチであるSelf-NPOを導入する。
論文 参考訳(メタデータ) (2025-05-17T01:03:46Z) - Negative-Prompt-driven Alignment for Generative Language Model [34.191590966148816]
本稿では,言語モデルが望ましくない行動から遠ざかるように,NEGative-prompt-driven AlignmenTを提案する。
NEATは有害なアウトプットを生成するためのモデルを明確に罰し、望ましい行動だけでなく、望ましくない偏見のある反応を発生させないよう仕向けている。
大規模な実験により、NEATは言語モデルと人間の価値観と嗜好との整合性を著しく向上させる効果を検証した。
論文 参考訳(メタデータ) (2024-10-16T03:30:09Z) - Extensive Self-Contrast Enables Feedback-Free Language Model Alignment [29.268993281961695]
自己コントラスト(Self-Contrast)は、大規模な自己生成陰性を利用するフィードバックフリーな大規模言語モデルアライメント手法である。
教師付き微調整(SFT)ターゲットのみを用いて、Self-Contrastはトレーニング済みの埋め込みモデルを使用して、テキストの類似性に応じて複数の負をフィルタリングする。
3つのデータセット上で直接選好最適化(DPO)を用いた実験により、Self-ContrastはSFTおよび標準DPOトレーニングを大きなマージンで一貫して上回ることを示した。
論文 参考訳(メタデータ) (2024-03-31T08:30:15Z) - Negating Negatives: Alignment with Human Negative Samples via Distributional Dispreference Optimization [37.8788435790632]
大規模言語モデル(LLM)は、AIの役割に革命をもたらしたが、潜在的な社会的リスクをもたらしている。
既存の方法は高品質な正負の訓練ペアに依存しており、ノイズの多い正の反応に悩まされており、負の反応とほとんど区別できない。
本稿では,非参照応答と生成した非負応答との差を最大化する分散参照最適化(D$2$O)を提案する。
論文 参考訳(メタデータ) (2024-03-06T03:02:38Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。