論文の概要: Open Problems and Fundamental Limitations of Reinforcement Learning from
Human Feedback
- arxiv url: http://arxiv.org/abs/2307.15217v2
- Date: Mon, 11 Sep 2023 17:25:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 19:17:58.833936
- Title: Open Problems and Fundamental Limitations of Reinforcement Learning from
Human Feedback
- Title(参考訳): 人間のフィードバックによる強化学習のオープン問題と基本的限界
- Authors: Stephen Casper, Xander Davies, Claudia Shi, Thomas Krendl Gilbert,
J\'er\'emy Scheurer, Javier Rando, Rachel Freedman, Tomasz Korbak, David
Lindner, Pedro Freire, Tony Wang, Samuel Marks, Charbel-Rapha\"el Segerie,
Micah Carroll, Andi Peng, Phillip Christoffersen, Mehul Damani, Stewart
Slocum, Usman Anwar, Anand Siththaranjan, Max Nadeau, Eric J. Michaud, Jacob
Pfau, Dmitrii Krasheninnikov, Xin Chen, Lauro Langosco, Peter Hase, Erdem
B{\i}y{\i}k, Anca Dragan, David Krueger, Dorsa Sadigh, Dylan Hadfield-Menell
- Abstract要約: 人間のフィードバックからの強化学習(RLHF)は、人間の目標に合わせるようにAIシステムを訓練する技術である。
我々の研究は、RLHFの限界を強調し、より安全なAIシステムの開発における多面的アプローチの重要性を強調している。
- 参考スコア(独自算出の注目度): 46.701165912225086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) is a technique for training
AI systems to align with human goals. RLHF has emerged as the central method
used to finetune state-of-the-art large language models (LLMs). Despite this
popularity, there has been relatively little public work systematizing its
flaws. In this paper, we (1) survey open problems and fundamental limitations
of RLHF and related methods; (2) overview techniques to understand, improve,
and complement RLHF in practice; and (3) propose auditing and disclosure
standards to improve societal oversight of RLHF systems. Our work emphasizes
the limitations of RLHF and highlights the importance of a multi-faceted
approach to the development of safer AI systems.
- Abstract(参考訳): 人間のフィードバックからの強化学習(RLHF)は、人間の目標に合わせるようにAIシステムを訓練する技術である。
RLHFは、最先端の大規模言語モデル(LLM)を微調整する中心的な手法として登場した。
この人気にもかかわらず、その欠陥を体系化する公共事業は比較的少ない。
本稿では,(1)RLHFとその関連手法のオープンな問題と基本的限界,(2)実際にRLHFを理解し,改善し,補完する技術,(3)RLHFシステムの社会的監視を改善するための監査・公開基準を提案する。
我々の研究は、RLHFの限界を強調し、より安全なAIシステムの開発における多面的アプローチの重要性を強調している。
関連論文リスト
- Principled Penalty-based Methods for Bilevel Reinforcement Learning and
RLHF [92.98631843849503]
本稿では, ペナルティ定式化のレンズによる二レベルRL問題の解法として, 第一原理のアルゴリズムフレームワークを提案する。
本稿では,問題景観とそのペナルティに基づく勾配(政治)アルゴリズムについて理論的研究を行う。
シミュレーションによるアルゴリズムの有効性を,Stackelberg Markovゲーム,人間からのフィードバックとインセンティブ設計によるRLで実証する。
論文 参考訳(メタデータ) (2024-02-10T04:54:15Z) - A Survey of Reinforcement Learning from Human Feedback [14.796001358119039]
人間からのフィードバックからの強化学習(RLHF)は、工学的な報酬関数に頼るのではなく、人間のフィードバックから学習する強化学習(RL)の一種である。
本稿では、RLHFの基礎を概観し、機械エージェントと人間の入力の間の複雑なダイナミクスを探求する。
論文 参考訳(メタデータ) (2023-12-22T18:58:06Z) - SuperHF: Supervised Iterative Learning from Human Feedback [20.22920163075946]
我々は,大規模言語モデル,Supervised Fine-Tuning (SFT) とReinforcement Learning from Human Feedback (RLHF) の2つの一般的な手法に着目した。
両手法の強みを生かした新しい手法であるSupervised Iterative Learning from Human Feedback (SuperHF)を提案する。
実験の結果,SuperHF は PPO ベースの RLHF を超え,高い報酬を低報酬ハッキングで容易にかつ好意的に取り除き,下流校正を改善し,GPT-4 ベースの定性評価スキームでも同様に実施し,実装は極めて簡単であった。
論文 参考訳(メタデータ) (2023-10-25T16:52:00Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [75.36922009358676]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - The History and Risks of Reinforcement Learning and Human Feedback [0.16843915833103415]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデルをより使いやすく、より効果的にするための強力なテクニックとして登場した。
RLHFプロセスの中核は、最適化のための報酬関数として機能する人間の好みのモデルのトレーニングと利用である。
RLHF報酬モデルはしばしばパフォーマンスの達成の中心として言及されるが、能力、評価、トレーニング方法、オープンソースのモデルに関する記述はごくわずかである。
論文 参考訳(メタデータ) (2023-10-20T15:45:16Z) - SALMON: Self-Alignment with Principle-Following Reward Models [84.31474052176343]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちのアプローチの中心は、原則に従う報酬モデルです。
提案手法をLLaMA-2-70bベース言語モデルに適用し,Dromedary-2というAIアシスタントを開発した。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Primitive Skill-based Robot Learning from Human Evaluative Feedback [28.046559859978597]
強化学習アルゴリズムは、現実世界環境における長期ロボット操作タスクを扱う際に、課題に直面している。
本稿では,人間フィードバックからの強化学習(RLHF)と原始的スキルベース強化学習の2つのアプローチを活用する新しいフレームワークSEEDを提案する。
以上の結果から,SEEDはサンプル効率と安全性において最先端のRLアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T20:48:30Z) - Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。
人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。
本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2023-07-11T01:55:24Z) - Perspectives on the Social Impacts of Reinforcement Learning with Human
Feedback [0.0]
人間のフィードバックによる強化学習(RLHF)は、エージェントが人間のフィードバックから自然主義的に学ぶための強力な候補として浮上している。
OpenAIのChatGPT、DeepMindのSparrow、AnthropicのClaudeなど、複数の著名なAIアプリケーションによって、一般に公開されている。
我々の目的は、RLHFの社会的影響を体系的に研究すること、RLHFの重要な社会的・倫理的問題を特定すること、利害関係者に対する社会的影響を議論することである。
論文 参考訳(メタデータ) (2023-03-06T04:49:38Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。