論文の概要: Zeroth-Order Optimization Meets Human Feedback: Provable Learning via
Ranking Oracles
- arxiv url: http://arxiv.org/abs/2303.03751v1
- Date: Tue, 7 Mar 2023 09:20:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 16:00:15.881678
- Title: Zeroth-Order Optimization Meets Human Feedback: Provable Learning via
Ranking Oracles
- Title(参考訳): zeroth-order optimizationは人間のフィードバックを満たす - ランキングオラクルによる証明可能な学習
- Authors: Zhiwei Tang, Dmitry Rybin, Tsung-Hui Chang
- Abstract要約: 本稿では,対象関数がブラックボックスであり,ランク付けオラクルによってのみ評価できる,新たな最適化問題に焦点をあてる。
ゼロ階最適化アルゴリズムZO-RankSGDを提案する。
また,ZO-RankSGDは,数ラウンドのフィードバックだけで生成した画像のディテールを大幅に向上させることができることを示す。
- 参考スコア(独自算出の注目度): 11.7042981071169
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we focus on a novel optimization problem in which the
objective function is a black-box and can only be evaluated through a ranking
oracle. This problem is common in real-world applications, particularly in
cases where the function is assessed by human judges. Reinforcement Learning
with Human Feedback (RLHF) is a prominent example of such an application, which
is adopted by the recent works
\cite{ouyang2022training,liu2023languages,chatgpt,bai2022training} to improve
the quality of Large Language Models (LLMs) with human guidance. We propose
ZO-RankSGD, a first-of-its-kind zeroth-order optimization algorithm, to solve
this optimization problem with a theoretical guarantee. Specifically, our
algorithm employs a new rank-based random estimator for the descent direction
and is proven to converge to a stationary point. ZO-RankSGD can also be
directly applied to the policy search problem in reinforcement learning when
only a ranking oracle of the episode reward is available. This makes ZO-RankSGD
a promising alternative to existing RLHF methods, as it optimizes in an online
fashion and thus can work without any pre-collected data. Furthermore, we
demonstrate the effectiveness of ZO-RankSGD in a novel application: improving
the quality of images generated by a diffusion generative model with human
ranking feedback. Throughout experiments, we found that ZO-RankSGD can
significantly enhance the detail of generated images with only a few rounds of
human feedback. Overall, our work advances the field of zeroth-order
optimization by addressing the problem of optimizing functions with only
ranking feedback, and offers an effective approach for aligning human and
machine intentions in a wide range of domains. Our code is released here
\url{https://github.com/TZW1998/Taming-Stable-Diffusion-with-Human-Ranking-Feedback}.
- Abstract(参考訳): 本稿では,対象関数がブラックボックスであり,ランク付けオラクルによってのみ評価できる,新たな最適化問題に焦点を当てる。
この問題は現実の応用、特に人間の判断によって機能を評価する場合によく見られる。
人的フィードバックによる強化学習(rlhf)は、人間の指導により大規模言語モデル(llm)の品質を向上させるために、最近の研究である \cite{ouyang2022training,liu2023languages,chatgpt,bai2022training} で採用されている。
本稿では,この最適化問題を理論的な保証により解くために,一階最適化アルゴリズムである zo-ranksgd を提案する。
具体的には, 降下方向に対する新しいランクベースランダム推定器を用い, 定常点への収束を証明した。
ZO-RankSGDは、エピソード報酬のランキングオラクルのみが利用できる場合に、強化学習におけるポリシー探索問題に直接適用することができる。
これにより、ZO-RankSGDは既存のRLHFメソッドに代わる有望な代替となる。
さらに,ZO-RankSGDの新たな応用として,人格フィードバックによる拡散生成モデルにより生成された画像の品質向上を実証する。
実験を通して、ZO-RankSGDは、ほんの数ラウンドのフィードバックだけで生成した画像のディテールを大幅に向上できることがわかった。
概して、ランク付けフィードバックのみで関数を最適化する問題に対処することで、ゼロ階最適化の分野を前進させ、幅広い領域において人間と機械の意図を整合させる効果的なアプローチを提供する。
私たちのコードはここでリリースされています。
関連論文リスト
- Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - LIRE: listwise reward enhancement for preference alignment [27.50204023448716]
本稿では、複数の応答のオフライン報酬を合理化されたリストワイズフレームワークに組み込む、勾配に基づく報酬最適化手法を提案する。
LIREは実装が簡単で、最小限のパラメータチューニングを必要とし、ペアワイズパラダイムとシームレスに整合する。
実験の結果,LIREは対話タスクや要約タスクのベンチマークにおいて,既存のメソッドよりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-22T10:21:50Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Regret-Aware Black-Box Optimization with Natural Gradients,
Trust-Regions and Entropy Control [17.430247457941284]
CMA-ESのような最も成功したブラックボックスは、新しい検索分布を得るために個々のサンプルのランキングを使用する。
これらのアルゴリズムは、通常、検索分布の質の高い平均推定値を生成するが、これらのアルゴリズムは後悔を知らないため、生成したサンプルは品質が劣る可能性がある。
対照的に、Relative Entropy Search (MORE)アルゴリズムは、ランキングを使わずに、期待されるフィットネス機能を直接最適化する。
論文 参考訳(メタデータ) (2022-05-24T16:25:15Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。