論文の概要: SAIL: Self-Amplified Iterative Learning for Diffusion Model Alignment with Minimal Human Feedback
- arxiv url: http://arxiv.org/abs/2602.05380v1
- Date: Thu, 05 Feb 2026 06:58:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.799596
- Title: SAIL: Self-Amplified Iterative Learning for Diffusion Model Alignment with Minimal Human Feedback
- Title(参考訳): SAIL:人間の最小フィードバックを用いた拡散モデルアライメントのための自己増幅反復学習
- Authors: Xiaoxuan He, Siming Fu, Wanli Li, Zhiyuan Li, Dacheng Yin, Kang Rong, Fengyun Rao, Bo Zhang,
- Abstract要約: textbfSAIL (textbfSelf-textbfAmplified textbfIterative textbfLearning) を提案する。
- 参考スコア(独自算出の注目度): 19.637094881784634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning diffusion models with human preferences remains challenging, particularly when reward models are unavailable or impractical to obtain, and collecting large-scale preference datasets is prohibitively expensive. \textit{This raises a fundamental question: can we achieve effective alignment using only minimal human feedback, without auxiliary reward models, by unlocking the latent capabilities within diffusion models themselves?} In this paper, we propose \textbf{SAIL} (\textbf{S}elf-\textbf{A}mplified \textbf{I}terative \textbf{L}earning), a novel framework that enables diffusion models to act as their own teachers through iterative self-improvement. Starting from a minimal seed set of human-annotated preference pairs, SAIL operates in a closed-loop manner where the model progressively generates diverse samples, self-annotates preferences based on its evolving understanding, and refines itself using this self-augmented dataset. To ensure robust learning and prevent catastrophic forgetting, we introduce a ranked preference mixup strategy that carefully balances exploration with adherence to initial human priors. Extensive experiments demonstrate that SAIL consistently outperforms state-of-the-art methods across multiple benchmarks while using merely 6\% of the preference data required by existing approaches, revealing that diffusion models possess remarkable self-improvement capabilities that, when properly harnessed, can effectively replace both large-scale human annotation and external reward models.
- Abstract(参考訳): 人間の嗜好を伴う拡散モデルの調整は、特に報酬モデルが利用できない、あるいは入手できない場合には困難であり、大規模な嗜好データセットの収集は違法に高価である。
補助的な報酬モデルなしで、最小限のフィードバックだけで効果的なアライメントを達成できますか?
本稿では,拡散モデルが反復的自己改善を通じて,自身の教師として振る舞うことができる,新しいフレームワークである \textbf{SAIL} (\textbf{S}elf-\textbf{A}mplified \textbf{I}terative \textbf{L}earning)を提案する。
最小限のシードセットから始まり、SAILはクローズドループ方式で動作し、モデルが多様なサンプルを徐々に生成し、その進化した理解に基づいて好みを自己アノテートし、この自己拡張データセットを使用して自分自身を洗練する。
強固な学習を確実にし,破滅的な忘れ込みを防止するため,初期人類の先行する先駆者に対する探索と順守を慎重にバランスさせる選好混合戦略を導入する。
大規模な実験により、SAILは既存のアプローチで要求される選好データの65%しか使用せず、複数のベンチマークで常に最先端の手法よりも優れており、拡散モデルには顕著な自己改善能力があり、適切に活用すれば、大規模な人的アノテーションと外部報酬モデルの両方を効果的に置き換えることができることが明らかになった。
関連論文リスト
- MiCRo: Mixture Modeling and Context-aware Routing for Personalized Preference Learning [28.478879569025583]
大規模な二元選好データセットを活用することにより、パーソナライズされた選好学習を強化する2段階フレームワークであるMiCRoを紹介する。
最初の段階では、MiCRoは様々な人間の嗜好を捉えるためにコンテキスト対応の混合モデリング手法を導入している。
第2段階では、MiCRoは、特定のコンテキストに基づいて混合重みを動的に適応してあいまいさを解決するオンラインルーティング戦略を統合する。
論文 参考訳(メタデータ) (2025-05-30T17:44:28Z) - Intuitionistic Fuzzy Sets for Large Language Model Data Annotation: A Novel Approach to Side-by-Side Preference Labeling [0.0]
本稿では,多言語モデル(LLM)における人間の嗜好をモデル化・集約するための直観的ファジィ集合(IFS)に基づく新しい枠組みを提案する。
我々のアプローチは、選好の度合いだけでなく、メンバーシップ、非メンバーシップ、およびヒューイテーションの度合いを通じて、人間の判断に固有の不確実性や偏見も捉えている。
複数のデータセットに対する実験的検証は、我々のIFSベースのアプローチがアノテーションの一貫性を大幅に改善し、アノテータの疲労を低減し、高品質な嗜好データを生成することを示した。
論文 参考訳(メタデータ) (2025-05-30T04:20:00Z) - Self-NPO: Negative Preference Optimization of Diffusion Models by Simply Learning from Itself without Explicit Preference Annotations [60.143658714894336]
拡散モデルは、画像、ビデオ、および3Dコンテンツ生成を含む様々な視覚生成タスクにおいて顕著な成功を収めている。
優先度最適化(PO)は、これらのモデルを人間の嗜好に合わせることを目的とした、顕著で成長している研究分野である。
モデル自体からのみ学習する負の選好最適化アプローチであるSelf-NPOを導入する。
論文 参考訳(メタデータ) (2025-05-17T01:03:46Z) - Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。
提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。
実験の結果,提案手法は平均的美学のテキスト・ツー・イメージ生成を著しく改善することがわかった。
論文 参考訳(メタデータ) (2024-10-08T07:33:49Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。