論文の概要: Open Problems and Fundamental Limitations of Reinforcement Learning from
Human Feedback
- arxiv url: http://arxiv.org/abs/2307.15217v1
- Date: Thu, 27 Jul 2023 22:29:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 14:11:11.830997
- Title: Open Problems and Fundamental Limitations of Reinforcement Learning from
Human Feedback
- Title(参考訳): 人間のフィードバックによる強化学習のオープン問題と基本的限界
- Authors: Stephen Casper, Xander Davies, Claudia Shi, Thomas Krendl Gilbert,
J\'er\'emy Scheurer, Javier Rando, Rachel Freedman, Tomasz Korbak, David
Lindner, Pedro Freire, Tony Wang, Samuel Marks, Charbel-Rapha\"el Segerie,
Micah Carroll, Andi Peng, Phillip Christoffersen, Mehul Damani, Stewart
Slocum, Usman Anwar, Anand Siththaranjan, Max Nadeau, Eric J. Michaud, Jacob
Pfau, Dmitrii Krasheninnikov, Xin Chen, Lauro Langosco, Peter Hase, Erdem
B{\i}y{\i}k, Anca Dragan, David Krueger, Dorsa Sadigh, Dylan Hadfield-Menell
- Abstract要約: 人間のフィードバックからの強化学習(RLHF)は、人間の目標に合わせるようにAIシステムを訓練する技術である。
我々の研究は、RLHFの限界を強調し、より安全なAIシステムの開発における多面的アプローチの重要性を強調している。
- 参考スコア(独自算出の注目度): 20.49606209564261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) is a technique for training
AI systems to align with human goals. RLHF has emerged as the central method
used to finetune state-of-the-art large language models (LLMs). Despite this
popularity, there has been relatively little public work systematizing its
flaws. In this paper, we (1) survey open problems and fundamental limitations
of RLHF and related methods; (2) overview techniques to understand, improve,
and complement RLHF in practice; and (3) propose auditing and disclosure
standards to improve societal oversight of RLHF systems. Our work emphasizes
the limitations of RLHF and highlights the importance of a multi-faceted
approach to the development of safer AI systems.
- Abstract(参考訳): 人間のフィードバックからの強化学習(RLHF)は、人間の目標に合わせるようにAIシステムを訓練する技術である。
RLHFは、最先端の大規模言語モデル(LLM)を微調整する中心的な手法として登場した。
この人気にもかかわらず、その欠陥を体系化する公共事業は比較的少ない。
本稿では,(1)RLHFとその関連手法のオープンな問題と基本的限界,(2)実際にRLHFを理解し,改善し,補完する技術,(3)RLHFシステムの社会的監視を改善するための監査・公開基準を提案する。
我々の研究は、RLHFの限界を強調し、より安全なAIシステムの開発における多面的アプローチの重要性を強調している。
関連論文リスト
- AI Alignment through Reinforcement Learning from Human Feedback? Contradictions and Limitations [0.2106667480549292]
我々は、誠実さ、無害さ、役に立つという、広く追求されたアライメント目標の欠点を示す。
我々はRLxFの目標に固有の緊張と矛盾を強調する。
我々は、RLxFの社会技術的影響を批判的に評価するよう研究者や実践者に促すことで結論付ける。
論文 参考訳(メタデータ) (2024-06-26T13:42:13Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs [49.386699863989335]
大きな言語モデル(LLM)を訓練し、人間の効果的なアシスタントとして機能させるには、慎重に検討する必要がある。
有望なアプローチとして、人間からのフィードバック(RLHF)からの強化学習がある。
本稿では、強化学習原理のレンズを通してRLHFを分析し、その基礎を理解する。
論文 参考訳(メタデータ) (2024-04-12T15:54:15Z) - Principled Penalty-based Methods for Bilevel Reinforcement Learning and RLHF [82.73541793388]
本稿では, ペナルティ定式化のレンズによる二レベルRL問題の解法として, 第一原理のアルゴリズムフレームワークを提案する。
本稿では,問題景観とそのペナルティに基づく勾配(政治)アルゴリズムについて理論的研究を行う。
シミュレーションによるアルゴリズムの有効性を,Stackelberg Markovゲーム,人間からのフィードバックとインセンティブ設計によるRLで実証する。
論文 参考訳(メタデータ) (2024-02-10T04:54:15Z) - A Survey of Reinforcement Learning from Human Feedback [28.92654784501927]
人間からのフィードバックからの強化学習(RLHF)は、工学的な報酬関数に頼るのではなく、人間のフィードバックから学習する強化学習(RL)の一種である。
本稿では、RLHFの基礎を概観し、RLエージェントとヒューマンインプットの複雑なダイナミクスを探求する。
論文 参考訳(メタデータ) (2023-12-22T18:58:06Z) - SuperHF: Supervised Iterative Learning from Human Feedback [20.22920163075946]
我々は,大規模言語モデル,Supervised Fine-Tuning (SFT) とReinforcement Learning from Human Feedback (RLHF) の2つの一般的な手法に着目した。
両手法の強みを生かした新しい手法であるSupervised Iterative Learning from Human Feedback (SuperHF)を提案する。
実験の結果,SuperHF は PPO ベースの RLHF を超え,高い報酬を低報酬ハッキングで容易にかつ好意的に取り除き,下流校正を改善し,GPT-4 ベースの定性評価スキームでも同様に実施し,実装は極めて簡単であった。
論文 参考訳(メタデータ) (2023-10-25T16:52:00Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - The History and Risks of Reinforcement Learning and Human Feedback [0.16843915833103415]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデルをより使いやすく、より効果的にするための強力なテクニックとして登場した。
RLHFプロセスの中核は、最適化のための報酬関数として機能する人間の好みのモデルのトレーニングと利用である。
RLHF報酬モデルはしばしばパフォーマンスの達成の中心として言及されるが、能力、評価、トレーニング方法、オープンソースのモデルに関する記述はごくわずかである。
論文 参考訳(メタデータ) (2023-10-20T15:45:16Z) - Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。
人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。
本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2023-07-11T01:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。