論文の概要: ImageReFL: Balancing Quality and Diversity in Human-Aligned Diffusion Models
- arxiv url: http://arxiv.org/abs/2505.22569v1
- Date: Wed, 28 May 2025 16:45:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.741525
- Title: ImageReFL: Balancing Quality and Diversity in Human-Aligned Diffusion Models
- Title(参考訳): ImageReFL: 人為的拡散モデルにおける品質と多様性のバランス
- Authors: Dmitrii Sorokin, Maksim Nakhodnov, Andrey Kuznetsov, Aibek Alanov,
- Abstract要約: 人間のフィードバックに基づいてトレーニングされたモデルを用いた逆向きの微調整は、アライメントを改善するが、しばしば多様性を損なう。
生成過程の後半にのみ報酬調整拡散モデルを適用する新しいサンプリング戦略であるテキスト組換え生成を導入する。
第2に,実画像のトレーニングによる画質の低下を最小限に抑えながら,画像の多様性を向上させる微調整手法である textitImageReFL を提案する。
- 参考スコア(独自算出の注目度): 2.712399554918533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in diffusion models have led to impressive image generation capabilities, but aligning these models with human preferences remains challenging. Reward-based fine-tuning using models trained on human feedback improves alignment but often harms diversity, producing less varied outputs. In this work, we address this trade-off with two contributions. First, we introduce \textit{combined generation}, a novel sampling strategy that applies a reward-tuned diffusion model only in the later stages of the generation process, while preserving the base model for earlier steps. This approach mitigates early-stage overfitting and helps retain global structure and diversity. Second, we propose \textit{ImageReFL}, a fine-tuning method that improves image diversity with minimal loss in quality by training on real images and incorporating multiple regularizers, including diffusion and ReFL losses. Our approach outperforms conventional reward tuning methods on standard quality and diversity metrics. A user study further confirms that our method better balances human preference alignment and visual diversity. The source code can be found at https://github.com/ControlGenAI/ImageReFL .
- Abstract(参考訳): 拡散モデルの最近の進歩は印象的な画像生成能力をもたらしたが、これらのモデルを人間の好みに合わせることは依然として困難である。
人間のフィードバックに基づいてトレーニングされたモデルを用いた逆向きの微調整は、アライメントを改善するが、しばしば多様性を損なう。
この作業では、このトレードオフに2つのコントリビューションで対処します。
まず,新しいサンプリング手法である‘textit{combined generation’を導入する。これは,初期段階のベースモデルを保ちながら,生成プロセスの後半にのみ報酬調整拡散モデルを適用する。
このアプローチは、アーリーステージのオーバーフィッティングを緩和し、グローバルな構造と多様性を維持するのに役立つ。
第2に、実画像のトレーニングや拡散やReFLの損失を含む複数の正規化器の導入により、画質の低下を最小限に抑えて画像の多様性を向上させる微調整法である「textit{ImageReFL}」を提案する。
提案手法は,標準品質および多様性指標における従来の報酬チューニング手法より優れている。
ユーザの調査により,人間の嗜好の調整と視覚的多様性のバランスが良くなったことが確認された。
ソースコードはhttps://github.com/ControlGenAI/ImageReFL にある。
関連論文リスト
- Boosting Alignment for Post-Unlearning Text-to-Image Generative Models [55.82190434534429]
大規模な生成モデルは、大量のデータによって推進される印象的な画像生成能力を示している。
これはしばしば必然的に有害なコンテンツや不適切なコンテンツを生み出し、著作権の懸念を引き起こす。
学習しない反復ごとに最適なモデル更新を求めるフレームワークを提案し、両方の目的に対して単調な改善を確実にする。
論文 参考訳(メタデータ) (2024-12-09T21:36:10Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Shielded Diffusion: Generating Novel and Diverse Images using Sparse Repellency [29.083402085790016]
本稿では,事前学習した拡散モデルのサンプル軌跡を,参照集合外に落下する画像上に着陸させる手法を提案する。
生成軌道全体にわたって拡散SDEに反発項を追加することでこれを実現できる。
一般的な拡散モデルにSPELLを追加することで、FIDにわずかに影響を与えながら多様性が向上し、最近のトレーニングフリーの多様性手法よりも比較的優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-10-08T13:26:32Z) - Elucidating Optimal Reward-Diversity Tradeoffs in Text-to-Image Diffusion Models [20.70550870149442]
Annealed Importance Guidance(AIG)は、Annealed Importance Smplingにインスパイアされた推論時正規化である。
安定拡散モデルに対するAIGの利点を実証し、報酬最適化と画像の多様性の最適なバランスを図った。
論文 参考訳(メタデータ) (2024-09-09T16:27:26Z) - Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention
Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。
本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。
実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-03-11T02:18:27Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Large-scale Reinforcement Learning for Diffusion Models [30.164571425479824]
テキストと画像の拡散モデルは、Webスケールのテキストと画像のトレーニングペアから生じる暗黙のバイアスに影響を受けやすい。
強化学習(Reinforcement Learning, RL)を用いて, 拡散モデルの改善に有効なスケーラブルアルゴリズムを提案する。
提案手法は,従来の拡散モデルと人間の嗜好を整合させる手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-20T08:10:43Z) - PGDiff: Guiding Diffusion Models for Versatile Face Restoration via
Partial Guidance [65.5618804029422]
これまでの研究は、明示的な劣化モデルを用いて解空間を制限することで、注目すべき成功を収めてきた。
実世界の劣化に適応可能な新しい視点である部分的ガイダンスを導入することでPGDiffを提案する。
提案手法は,既存の拡散優先手法に勝るだけでなく,タスク固有モデルと良好に競合する。
論文 参考訳(メタデータ) (2023-09-19T17:51:33Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。