論文の概要: Zeroth-Order Optimization Meets Human Feedback: Provable Learning via
Ranking Oracles
- arxiv url: http://arxiv.org/abs/2303.03751v1
- Date: Tue, 7 Mar 2023 09:20:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 16:00:15.881678
- Title: Zeroth-Order Optimization Meets Human Feedback: Provable Learning via
Ranking Oracles
- Title(参考訳): zeroth-order optimizationは人間のフィードバックを満たす - ランキングオラクルによる証明可能な学習
- Authors: Zhiwei Tang, Dmitry Rybin, Tsung-Hui Chang
- Abstract要約: 本稿では,対象関数がブラックボックスであり,ランク付けオラクルによってのみ評価できる,新たな最適化問題に焦点をあてる。
ゼロ階最適化アルゴリズムZO-RankSGDを提案する。
また,ZO-RankSGDは,数ラウンドのフィードバックだけで生成した画像のディテールを大幅に向上させることができることを示す。
- 参考スコア(独自算出の注目度): 11.7042981071169
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we focus on a novel optimization problem in which the
objective function is a black-box and can only be evaluated through a ranking
oracle. This problem is common in real-world applications, particularly in
cases where the function is assessed by human judges. Reinforcement Learning
with Human Feedback (RLHF) is a prominent example of such an application, which
is adopted by the recent works
\cite{ouyang2022training,liu2023languages,chatgpt,bai2022training} to improve
the quality of Large Language Models (LLMs) with human guidance. We propose
ZO-RankSGD, a first-of-its-kind zeroth-order optimization algorithm, to solve
this optimization problem with a theoretical guarantee. Specifically, our
algorithm employs a new rank-based random estimator for the descent direction
and is proven to converge to a stationary point. ZO-RankSGD can also be
directly applied to the policy search problem in reinforcement learning when
only a ranking oracle of the episode reward is available. This makes ZO-RankSGD
a promising alternative to existing RLHF methods, as it optimizes in an online
fashion and thus can work without any pre-collected data. Furthermore, we
demonstrate the effectiveness of ZO-RankSGD in a novel application: improving
the quality of images generated by a diffusion generative model with human
ranking feedback. Throughout experiments, we found that ZO-RankSGD can
significantly enhance the detail of generated images with only a few rounds of
human feedback. Overall, our work advances the field of zeroth-order
optimization by addressing the problem of optimizing functions with only
ranking feedback, and offers an effective approach for aligning human and
machine intentions in a wide range of domains. Our code is released here
\url{https://github.com/TZW1998/Taming-Stable-Diffusion-with-Human-Ranking-Feedback}.
- Abstract(参考訳): 本稿では,対象関数がブラックボックスであり,ランク付けオラクルによってのみ評価できる,新たな最適化問題に焦点を当てる。
この問題は現実の応用、特に人間の判断によって機能を評価する場合によく見られる。
人的フィードバックによる強化学習(rlhf)は、人間の指導により大規模言語モデル(llm)の品質を向上させるために、最近の研究である \cite{ouyang2022training,liu2023languages,chatgpt,bai2022training} で採用されている。
本稿では,この最適化問題を理論的な保証により解くために,一階最適化アルゴリズムである zo-ranksgd を提案する。
具体的には, 降下方向に対する新しいランクベースランダム推定器を用い, 定常点への収束を証明した。
ZO-RankSGDは、エピソード報酬のランキングオラクルのみが利用できる場合に、強化学習におけるポリシー探索問題に直接適用することができる。
これにより、ZO-RankSGDは既存のRLHFメソッドに代わる有望な代替となる。
さらに,ZO-RankSGDの新たな応用として,人格フィードバックによる拡散生成モデルにより生成された画像の品質向上を実証する。
実験を通して、ZO-RankSGDは、ほんの数ラウンドのフィードバックだけで生成した画像のディテールを大幅に向上できることがわかった。
概して、ランク付けフィードバックのみで関数を最適化する問題に対処することで、ゼロ階最適化の分野を前進させ、幅広い領域において人間と機械の意図を整合させる効果的なアプローチを提供する。
私たちのコードはここでリリースされています。
関連論文リスト
- Overcoming Reward Overoptimization via Adversarial Policy Optimization
with Lightweight Uncertainty Estimation [50.0151082930949]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Beyond Single-Model Views for Deep Learning: Optimization versus
Generalizability of Stochastic Optimization Algorithms [13.134564730161983]
本稿では、勾配降下(SGD)とその変種に着目し、ディープラーニングの最適化に新しいアプローチを採用する。
我々はSGDとその変種がSAMのような平らなミニマと同等の性能を示すことを示した。
本研究は、トレーニング損失とホールドアウト精度の関係、およびSGDとノイズ対応変種の性能について、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2024-03-01T14:55:22Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in
Reinforcement Learning from Human Feedback [61.54791065013767]
人間のフィードバック(RRLHF)からのロボット強化学習による報酬正規化のためのサンプル効率向上アルゴリズムREBELを提案する。
PEBBLEやPEBBLE+SURFのような最先端の手法と比較して,REBELは試料効率を最大70%向上し,十分な報酬率が得られることを示した。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [75.36922009358676]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Rank-Based Learning and Local Model Based Evolutionary Algorithm for
High-Dimensional Expensive Multi-Objective Problems [1.1470070927586018]
提案アルゴリズムは, ランクベース学習, ハイパーボリュームベース非支配探索, 比較的スパースな対象空間における局所探索の3つの部分からなる。
地熱貯留層熱抽出最適化におけるベンチマーク問題と実世界の応用の実験的結果は,提案アルゴリズムが優れた性能を示すことを示すものである。
論文 参考訳(メタデータ) (2023-04-19T06:25:04Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Regret-Aware Black-Box Optimization with Natural Gradients,
Trust-Regions and Entropy Control [17.430247457941284]
CMA-ESのような最も成功したブラックボックスは、新しい検索分布を得るために個々のサンプルのランキングを使用する。
これらのアルゴリズムは、通常、検索分布の質の高い平均推定値を生成するが、これらのアルゴリズムは後悔を知らないため、生成したサンプルは品質が劣る可能性がある。
対照的に、Relative Entropy Search (MORE)アルゴリズムは、ランキングを使わずに、期待されるフィットネス機能を直接最適化する。
論文 参考訳(メタデータ) (2022-05-24T16:25:15Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z) - Learning to be Global Optimizer [28.88646928299302]
いくつかのベンチマーク関数に対して最適なネットワークとエスケープ能力アルゴリズムを学習する。
学習したアルゴリズムは、よく知られた古典最適化アルゴリズムよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-03-10T03:46:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。