論文の概要: Alignment and Safety of Diffusion Models via Reinforcement Learning and Reward Modeling: A Survey
- arxiv url: http://arxiv.org/abs/2505.17352v1
- Date: Fri, 23 May 2025 00:08:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.73886
- Title: Alignment and Safety of Diffusion Models via Reinforcement Learning and Reward Modeling: A Survey
- Title(参考訳): 強化学習とリワードモデリングによる拡散モデルのアライメントと安全性に関する調査
- Authors: Preeti Lamba, Kiran Ravish, Ankita Kushwaha, Pawan Kumar,
- Abstract要約: 本論文では,拡散モデルと人間の嗜好と安全性の制約を整合させる手法について考察する。
人間のフィードバックによる微調整テキスト・画像拡散モデルの進歩を調査する。
今後2年間の有望な研究方針を5つ特定する。
- 参考スコア(独自算出の注目度): 0.43685882232443657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have emerged as leading generative models for images and other modalities, but aligning their outputs with human preferences and safety constraints remains a critical challenge. This thesis proposal investigates methods to align diffusion models using reinforcement learning (RL) and reward modeling. We survey recent advances in fine-tuning text-to-image diffusion models with human feedback, including reinforcement learning from human and AI feedback, direct preference optimization, and differentiable reward approaches. We classify these methods based on the type of feedback (human, automated, binary or ranked preferences), the fine-tuning technique (policy gradient, reward-weighted likelihood, direct backpropagation, etc.), and their efficiency and safety outcomes. We compare key algorithms and frameworks, highlighting how they improve alignment with user intent or safety standards, and discuss inter-relationships such as how newer methods build on or diverge from earlier ones. Based on the survey, we identify five promising research directions for the next two years: (1) multi-objective alignment with combined rewards, (2) efficient human feedback usage and active learning, (3) robust safety alignment against adversarial inputs, (4) continual and online alignment of diffusion models, and (5) interpretable and trustworthy reward modeling for generative images. Each direction is elaborated with its problem statement, challenges, related work, and a proposed research plan. The proposal is organized as a comprehensive document with literature review, comparative tables of methods, and detailed research plans, aiming to contribute new insights and techniques for safer and value-aligned diffusion-based generative AI.
- Abstract(参考訳): 拡散モデルは画像やその他のモダリティの主要な生成モデルとして現れてきたが、その出力を人間の好みや安全性の制約に合わせることは依然として重要な課題である。
本論文では、強化学習(RL)と報酬モデルを用いて拡散モデルを整列させる手法について検討する。
人間とAIのフィードバックからの強化学習、直接選好最適化、微分可能な報酬アプローチなど、人間のフィードバックによる微調整テキスト・画像拡散モデルの最近の進歩を調査した。
これらの手法は、フィードバックの種類(人間、自動化、バイナリ、ランク付け)、微調整技術(政治グラデーション、報酬重み付け可能性、直接のバックプロパゲーションなど)、およびそれらの効率性と安全性の結果に基づいて分類する。
キーとなるアルゴリズムとフレームワークを比較し、ユーザ意図や安全基準との整合性を改善する方法を強調し、新しいメソッドがどのように構築されたか、あるいは以前のメソッドから分離したのかといった関係性について議論する。
本調査から,(1)複合報酬による多目的アライメント,(2)効率的な人的フィードバック利用と積極的学習,(3)逆入力に対する堅牢な安全性アライメント,(4)拡散モデルの連続的およびオンラインアライメント,(5)生成画像に対する解釈可能かつ信頼性の高い報酬モデリング,の5つの研究方向を抽出した。
それぞれの方向は、問題声明、課題、関連する作業、提案された研究計画で詳しく説明されている。
この提案は、文献レビュー、メソッドの比較表、詳細な研究計画を含む包括的なドキュメントとして組織され、より安全で価値に整合した拡散ベースの生成AIのための新しい洞察と技術の提供を目的としている。
関連論文リスト
- Aligning Visual Contrastive learning models via Preference Optimization [0.9438963196770565]
本稿では,複雑な概念を分解するために,異なる優先度最適化(PO)手法を用いて,コントラスト学習モデルを訓練する新しい手法を提案する。
提案手法は,モデル行動と所望の嗜好を体系的に整合させ,目標タスクの性能を向上させる。
特に,CLIPのような対照的な視覚言語モデルでよく見られる,タイポグラフィー攻撃や帰納的バイアスに対するモデルロバスト性の向上に焦点を当てた。
論文 参考訳(メタデータ) (2024-11-12T08:14:54Z) - A Survey on All-in-One Image Restoration: Taxonomy, Evaluation and Future Trends [67.43992456058541]
画像復元(IR)とは、ノイズ、ぼかし、気象効果などの劣化を除去しながら、画像の視覚的品質を改善する過程である。
従来のIR手法は、一般的に特定の種類の劣化をターゲットとしており、複雑な歪みを伴う現実のシナリオにおいて、その効果を制限している。
オールインワン画像復元(AiOIR)パラダイムが登場し、複数の劣化タイプに順応的に対処する統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2024-10-19T11:11:09Z) - Inverse-RLignment: Large Language Model Alignment from Demonstrations through Inverse Reinforcement Learning [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。
AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。
そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T15:13:53Z) - RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation [24.374185140811115]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムを人間の価値と整合させる効果的な手法である。
本稿では、人間の嗜好に固有の異質性や、フィードバックの提供における潜在的な戦略的行動から、この問題に対処することに焦点を当てる。
本研究では, 個人化に基づく手法と集約に基づく手法の2つの枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-30T23:57:23Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Diffusion Models for Image Restoration and Enhancement -- A
Comprehensive Survey [96.99328714941657]
本稿では,近年の拡散モデルに基づく画像復元手法について概観する。
我々は、赤外線とブラインド/現実世界の両方で拡散モデルを用いて、革新的なデザインを分類し、強調する。
本稿では,拡散モデルに基づくIRの今後の研究に向けた5つの可能性と課題を提案する。
論文 参考訳(メタデータ) (2023-08-18T08:40:38Z) - Quality Diversity Evolutionary Learning of Decision Trees [4.447467536572625]
MAP-Elitesは, モデル複雑性と振る舞いの多様性の両方を捉えた特徴空間上で, ハイブリッドモデルを多様化することができることを示す。
本手法をOpenAI Gymライブラリの2つのよく知られた制御問題に適用し,MAP-Elitesが提案する「照明」パターンについて議論する。
論文 参考訳(メタデータ) (2022-08-17T13:57:32Z) - Rethinking Bayesian Learning for Data Analysis: The Art of Prior and
Inference in Sparsity-Aware Modeling [20.296566563098057]
信号処理と機械学習のためのスパースモデリングは、20年以上にわたって科学研究の焦点となっている。
本稿では,3つの一般的なデータモデリングツールにスパーシティ・プロモーティング・プリエントを組み込むことの最近の進歩を概観する。
論文 参考訳(メタデータ) (2022-05-28T00:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。