論文の概要: Zeroth-Order Optimization Meets Human Feedback: Provable Learning via
Ranking Oracles
- arxiv url: http://arxiv.org/abs/2303.03751v2
- Date: Thu, 15 Feb 2024 11:25:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 21:28:36.796050
- Title: Zeroth-Order Optimization Meets Human Feedback: Provable Learning via
Ranking Oracles
- Title(参考訳): zeroth-order optimizationは人間のフィードバックを満たす - ランキングオラクルによる証明可能な学習
- Authors: Zhiwei Tang, Dmitry Rybin, Tsung-Hui Chang
- Abstract要約: ブラックボックスの客観的関数は、ランクのオラクルを通してのみ測定できる。
ゼロ階最適化アルゴリズムZO-RankSGDを導入する。
また,ZO-RankSGDは,数ラウンドのフィードバックだけで生成した画像のディテールを大幅に向上させることができることを示す。
- 参考スコア(独自算出の注目度): 19.012013880029244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we delve into an emerging optimization challenge involving a
black-box objective function that can only be gauged via a ranking oracle-a
situation frequently encountered in real-world scenarios, especially when the
function is evaluated by human judges. Such challenge is inspired from
Reinforcement Learning with Human Feedback (RLHF), an approach recently
employed to enhance the performance of Large Language Models (LLMs) using human
guidance. We introduce ZO-RankSGD, an innovative zeroth-order optimization
algorithm designed to tackle this optimization problem, accompanied by
theoretical assurances. Our algorithm utilizes a novel rank-based random
estimator to determine the descent direction and guarantees convergence to a
stationary point. Moreover, ZO-RankSGD is readily applicable to policy
optimization problems in Reinforcement Learning (RL), particularly when only
ranking oracles for the episode reward are available. Last but not least, we
demonstrate the effectiveness of ZO-RankSGD in a novel application: improving
the quality of images generated by a diffusion generative model with human
ranking feedback. Throughout experiments, we found that ZO-RankSGD can
significantly enhance the detail of generated images with only a few rounds of
human feedback. Overall, our work advances the field of zeroth-order
optimization by addressing the problem of optimizing functions with only
ranking feedback, and offers a new and effective approach for aligning
Artificial Intelligence (AI) with human intentions.
- Abstract(参考訳): 本研究では,ブラックボックスの目的関数を,現実世界のシナリオ,特に人間の審査員による評価において頻繁に発生する格付けオラクルの状況を通じてのみ測定できるような,新たな最適化課題を掘り下げる。
このような課題は、人間によるガイダンスを用いた大規模言語モデル(LLM)のパフォーマンス向上に最近採用されたRLHF(Reinforcement Learning with Human Feedback)から着想を得ている。
本稿では,この最適化問題に対処するために,理論的な保証を伴う革新的なゼロ次最適化アルゴリズムである zo-ranksgd を提案する。
本アルゴリズムは,新しいランクベース乱数推定器を用いて降下方向を判定し,静止点への収束を保証する。
さらに、ZO-RankSGDは強化学習(RL)におけるポリシー最適化問題にも容易に適用できる。
最後に,人間ランキングフィードバックによる拡散生成モデルによる画像品質の向上という新しい応用において,zo-ranksgdの有効性を示す。
実験を通して、ZO-RankSGDは、ほんの数ラウンドのフィードバックだけで生成した画像のディテールを大幅に向上できることがわかった。
全体的な研究は、ランク付けフィードバックのみで関数を最適化する問題に対処することで、ゼロ階最適化の分野を前進させ、人工知能(AI)を人間の意図に合わせるための新しい効果的なアプローチを提供する。
関連論文リスト
- Overcoming Reward Overoptimization via Adversarial Policy Optimization
with Lightweight Uncertainty Estimation [50.0151082930949]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Beyond Single-Model Views for Deep Learning: Optimization versus
Generalizability of Stochastic Optimization Algorithms [13.134564730161983]
本稿では、勾配降下(SGD)とその変種に着目し、ディープラーニングの最適化に新しいアプローチを採用する。
我々はSGDとその変種がSAMのような平らなミニマと同等の性能を示すことを示した。
本研究は、トレーニング損失とホールドアウト精度の関係、およびSGDとノイズ対応変種の性能について、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2024-03-01T14:55:22Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in
Reinforcement Learning from Human Feedback [61.54791065013767]
人間のフィードバック(RRLHF)からのロボット強化学習による報酬正規化のためのサンプル効率向上アルゴリズムREBELを提案する。
PEBBLEやPEBBLE+SURFのような最先端の手法と比較して,REBELは試料効率を最大70%向上し,十分な報酬率が得られることを示した。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [75.36922009358676]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Rank-Based Learning and Local Model Based Evolutionary Algorithm for
High-Dimensional Expensive Multi-Objective Problems [1.1470070927586018]
提案アルゴリズムは, ランクベース学習, ハイパーボリュームベース非支配探索, 比較的スパースな対象空間における局所探索の3つの部分からなる。
地熱貯留層熱抽出最適化におけるベンチマーク問題と実世界の応用の実験的結果は,提案アルゴリズムが優れた性能を示すことを示すものである。
論文 参考訳(メタデータ) (2023-04-19T06:25:04Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Regret-Aware Black-Box Optimization with Natural Gradients,
Trust-Regions and Entropy Control [17.430247457941284]
CMA-ESのような最も成功したブラックボックスは、新しい検索分布を得るために個々のサンプルのランキングを使用する。
これらのアルゴリズムは、通常、検索分布の質の高い平均推定値を生成するが、これらのアルゴリズムは後悔を知らないため、生成したサンプルは品質が劣る可能性がある。
対照的に、Relative Entropy Search (MORE)アルゴリズムは、ランキングを使わずに、期待されるフィットネス機能を直接最適化する。
論文 参考訳(メタデータ) (2022-05-24T16:25:15Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z) - Learning to be Global Optimizer [28.88646928299302]
いくつかのベンチマーク関数に対して最適なネットワークとエスケープ能力アルゴリズムを学習する。
学習したアルゴリズムは、よく知られた古典最適化アルゴリズムよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-03-10T03:46:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。