論文の概要: Human-Feedback Efficient Reinforcement Learning for Online Diffusion Model Finetuning
- arxiv url: http://arxiv.org/abs/2410.05116v1
- Date: Mon, 7 Oct 2024 15:12:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 00:08:45.333996
- Title: Human-Feedback Efficient Reinforcement Learning for Online Diffusion Model Finetuning
- Title(参考訳): オンライン拡散モデルファインタニングのためのヒューマンフィードバック効率的な強化学習
- Authors: Ayano Hiranaka, Shang-Fu Chen, Chieh-Hsin Lai, Dongjun Kim, Naoki Murata, Takashi Shibuya, Wei-Hsiang Liao, Shao-Hua Sun, Yuki Mitsufuji,
- Abstract要約: HEROは、人間のフィードバックを捉え、微調整のための情報学習信号を提供するオンライントレーニング手法である。
HEROは、推論、カウント、パーソナライズ、NSFWコンテンツを0.5Kのオンラインフィードバックで効果的に処理できる。
- 参考スコア(独自算出の注目度): 21.707688492630304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controllable generation through Stable Diffusion (SD) fine-tuning aims to improve fidelity, safety, and alignment with human guidance. Existing reinforcement learning from human feedback methods usually rely on predefined heuristic reward functions or pretrained reward models built on large-scale datasets, limiting their applicability to scenarios where collecting such data is costly or difficult. To effectively and efficiently utilize human feedback, we develop a framework, HERO, which leverages online human feedback collected on the fly during model learning. Specifically, HERO features two key mechanisms: (1) Feedback-Aligned Representation Learning, an online training method that captures human feedback and provides informative learning signals for fine-tuning, and (2) Feedback-Guided Image Generation, which involves generating images from SD's refined initialization samples, enabling faster convergence towards the evaluator's intent. We demonstrate that HERO is 4x more efficient in online feedback for body part anomaly correction compared to the best existing method. Additionally, experiments show that HERO can effectively handle tasks like reasoning, counting, personalization, and reducing NSFW content with only 0.5K online feedback.
- Abstract(参考訳): 安定拡散(SD)ファインチューニングによる制御可能な生成は、人間の指示に忠実さ、安全性、整合性を改善することを目的としている。
人間のフィードバック手法から既存の強化学習は、通常、定義済みのヒューリスティック報酬関数や、大規模データセット上に構築された事前訓練された報酬モデルに依存しており、そのようなデータ収集が高価または困難であるシナリオに適用性を制限する。
人的フィードバックを効果的かつ効率的に活用するために,モデル学習中に収集したオンライン人的フィードバックを活用するフレームワークHEROを開発した。
具体的には,(1)人間のフィードバックを捉え,微調整のための情報学習信号を提供するオンライン学習手法であるフィードバック適応表現学習と,(2)SDの精巧な初期化サンプルから画像を生成するフィードバックガイド画像生成の2つのメカニズムを特徴とする。
HEROは,既存手法と比較して,身体部分異常補正のオンラインフィードバックにおいて4倍効率が高いことを示す。
さらに、HEROは推論、カウント、パーソナライズ、NSFWコンテンツの削減といったタスクを0.5Kのオンラインフィードバックで効果的に処理できることが実験によって示されている。
関連論文リスト
- GUIDE: Real-Time Human-Shaped Agents [4.676987516944155]
リアルタイム強化学習のためのGUIDEを紹介した。
人間のフィードバックが10分しかなく、我々のアルゴリズムはRLベースラインと比較して最大30%の成功率を達成できる。
論文 参考訳(メタデータ) (2024-10-19T18:59:39Z) - Just Say What You Want: Only-prompting Self-rewarding Online Preference Optimization [64.34767799614328]
現在の自己回帰アプローチは、差別者の判断能力に大きく依存している。
本稿では,判断能力に頼らずに嗜好データセットを生成する,新たな自己回帰型オンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-26T04:41:08Z) - Iterative Data Smoothing: Mitigating Reward Overfitting and
Overoptimization in RLHF [79.98542868281471]
強化学習(Reinforcement Learning from Human Feedback, RLHF)は、言語モデルを人間中心の値と密接に整合させる手法である。
学習した報奨モデルに対して過度に最適化すると、最終的には真の目的が損なわれることが観察された。
本稿では、これらの問題を考察し、「Iterative Data Smoothing」(IDS)と呼ばれる改良された報酬学習アルゴリズムの設計に理論的知見を活用する。
論文 参考訳(メタデータ) (2024-01-29T17:43:42Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - COURIER: Contrastive User Intention Reconstruction for Large-Scale Visual Recommendation [33.903096803803706]
我々は、既存のモダリティ機能を超えたさらなる改善のために、推奨に適した視覚的特徴事前学習法が必要であると論じる。
本研究では,行動履歴からユーザ興味に関連する視覚的特徴を抽出する効果的なユーザ意図再構築モジュールを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:45:24Z) - HIVE: Harnessing Human Feedback for Instructional Visual Editing [127.29436858998064]
本稿では,ヒューマンフィードバックを利用した指導視覚編集(HIVE)のための新しいフレームワークを提案する。
具体的には、編集された画像に対する人間のフィードバックを収集し、報酬関数を学習して、基礎となるユーザの好みをキャプチャする。
次に、推定報酬に基づいて人間の好みを組み込むスケーラブルな拡散モデル微調整手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T19:47:41Z) - Learning New Skills after Deployment: Improving open-domain
internet-driven dialogue with human feedback [22.92577324751342]
学習フレームワークにおけるインターネットによる会話能力の向上について検討する。
デプロイデータを収集し、さまざまな種類のフィードバックを収集します。
最近導入されたDirectorモデルは、他の既存のアプローチよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-08-05T16:41:46Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Widening the Pipeline in Human-Guided Reinforcement Learning with
Explanation and Context-Aware Data Augmentation [20.837228359591663]
本研究は,人間によるループ内強化学習における視覚的説明を用いた最初の研究である。
本研究では,タスク関連機能をコンテキスト対応データ拡張を通じて符号化することをモデルに推奨するEXPANDを提案する。
論文 参考訳(メタデータ) (2020-06-26T05:40:05Z) - Facial Feedback for Reinforcement Learning: A Case Study and Offline
Analysis Using the TAMER Framework [51.237191651923666]
訓練者の表情からエージェント学習の可能性について,評価フィードバックとして解釈することで検討した。
設計したCNN-RNNモデルを用いて,学習者に対して表情とコンペティションの使用を指示することで,肯定的および否定的なフィードバックを推定する精度を向上させることができることを示す。
シミュレーション実験の結果,表情に基づく予測フィードバックのみから学習できることが示唆された。
論文 参考訳(メタデータ) (2020-01-23T17:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。