論文の概要: A Survey of Reinforcement Learning from Human Feedback
- arxiv url: http://arxiv.org/abs/2312.14925v1
- Date: Fri, 22 Dec 2023 18:58:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 13:55:31.406588
- Title: A Survey of Reinforcement Learning from Human Feedback
- Title(参考訳): 人のフィードバックからの強化学習に関する調査
- Authors: Timo Kaufmann, Paul Weng, Viktor Bengs, Eyke H\"ullermeier
- Abstract要約: 人間からのフィードバックからの強化学習(RLHF)は、工学的な報酬関数に頼るのではなく、人間のフィードバックから学習する強化学習(RL)の一種である。
本稿では、RLHFの基礎を概観し、機械エージェントと人間の入力の間の複雑なダイナミクスを探求する。
- 参考スコア(独自算出の注目度): 14.796001358119039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) is a variant of
reinforcement learning (RL) that learns from human feedback instead of relying
on an engineered reward function. Building on prior work on the related setting
of preference-based reinforcement learning (PbRL), it stands at the
intersection of artificial intelligence and human-computer interaction. This
positioning offers a promising avenue to enhance the performance and
adaptability of intelligent systems while also improving the alignment of their
objectives with human values. The training of Large Language Models (LLMs) has
impressively demonstrated this potential in recent years, where RLHF played a
decisive role in targeting the model's capabilities toward human objectives.
This article provides a comprehensive overview of the fundamentals of RLHF,
exploring the intricate dynamics between machine agents and human input. While
recent focus has been on RLHF for LLMs, our survey adopts a broader
perspective, examining the diverse applications and wide-ranging impact of the
technique. We delve into the core principles that underpin RLHF, shedding light
on the symbiotic relationship between algorithms and human feedback, and
discuss the main research trends in the field. By synthesizing the current
landscape of RLHF research, this article aims to provide researchers as well as
practitioners with a comprehensive understanding of this rapidly growing field
of research.
- Abstract(参考訳): 人間からのフィードバックからの強化学習(RLHF)は、工学的な報酬関数に頼るのではなく、人間のフィードバックから学習する強化学習(RL)の一種である。
プレファレンスベース強化学習(pbrl)の関連設定に関する先行研究に基づき、人工知能と人間とコンピュータの相互作用の交差点に位置する。
この位置付けは、知的システムのパフォーマンスと適応性を高めるとともに、目的と人間の価値の整合性を向上させるための有望な道を提供する。
LLM(Large Language Models)のトレーニングは、RLHFが人間の目的に向けたモデルの能力をターゲットにする決定的な役割を担った近年において、この可能性を著しく証明している。
本稿では、RLHFの基礎を概観し、機械エージェントと人間の入力の間の複雑なダイナミクスを探求する。
近年, LLM の RLHF に焦点が当てられているが,本調査では多種多様な応用, 広範にわたる影響について, より広い視点で検討している。
我々は,rlhfを支える基本原理を考察し,アルゴリズムと人間のフィードバックの共生関係を考察し,この分野の主要な研究動向について考察した。
本稿は,RLHF研究の現況を合成することによって,この急成長する研究分野の包括的理解を研究者や実践者に提供することを目的とする。
関連論文リスト
- Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - Exploration-Driven Policy Optimization in RLHF: Theoretical Insights on
Efficient Data Utilization [60.66162263756611]
ポリシー最適化(PO-RLHF)に基づくRLHFアルゴリズムの検討
クエリの複雑さが低いPO-RLHFの性能バウンダリを提供する。
重要な特徴は、報酬関数パラメーターを推論するために用いられる軌道レベルの楕円ポテンシャル分析技術である。
論文 参考訳(メタデータ) (2024-02-15T22:11:18Z) - Aligning Large Language Models with Human Preferences through
Representation Engineering [43.201368273466365]
表現工学(RepE)の新たな分野から着想を得た本研究は,LLM内の活動パターンに埋め込まれた高レベルの人間の嗜好の関連表現を特定することを目的としている。
この新しいアプローチは、人間フィードバックからの表現アライメント(Representation Alignment from Human Feedback、RAHF)と呼ばれ、効果的で、計算的に効率的で、実装が容易であることが証明されている。
論文 参考訳(メタデータ) (2023-12-26T11:01:36Z) - The History and Risks of Reinforcement Learning and Human Feedback [0.16843915833103415]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデルをより使いやすく、より効果的にするための強力なテクニックとして登場した。
RLHFプロセスの中核は、最適化のための報酬関数として機能する人間の好みのモデルのトレーニングと利用である。
RLHF報酬モデルはしばしばパフォーマンスの達成の中心として言及されるが、能力、評価、トレーニング方法、オープンソースのモデルに関する記述はごくわずかである。
論文 参考訳(メタデータ) (2023-10-20T15:45:16Z) - Improving Generalization of Alignment with Human Preferences through
Group Invariant Learning [56.19242260613749]
Reinforcement Learning from Human Feedback (RLHF) は、人間の好みに合わせた反応の生成を可能にする。
以前の研究は、強化学習(RL)がしばしばショートカットを利用して高い報酬を獲得し、挑戦的なサンプルを見落としていることを示している。
本稿では,複数のデータグループやドメインにまたがる一貫したポリシをRLで学習する,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-18T13:54:15Z) - Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。
人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。
本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2023-07-11T01:55:24Z) - Evolutionary Reinforcement Learning: A Survey [31.112066295496003]
強化学習(Reinforcement Learning、RL)は、エージェントが環境とのインタラクションを通じて累積報酬を最大化するように訓練する機械学習アプローチである。
本稿では、進化強化学習(EvoRL)と呼ばれる、ECをRLに統合するための最先端手法に関する総合的な調査を紹介する。
論文 参考訳(メタデータ) (2023-03-07T01:38:42Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Towards Interactive Reinforcement Learning with Intrinsic Feedback [1.7117805951258132]
強化学習(RL)と脳-コンピュータインターフェース(BCI)は、過去10年間で大きな成長を遂げてきた。
HITL(Human-in-the-loop)への関心が高まり、RLアルゴリズムに人間の入力を組み込むことで、インタラクティブなRLのサブフィールドが生まれている。
この新たな,新たなフィードバック媒体を本質的なフィードバックと表現する。
論文 参考訳(メタデータ) (2021-12-02T19:29:26Z) - Towards Continual Reinforcement Learning: A Review and Perspectives [69.48324517535549]
我々は,連続的強化学習(RL)に対する異なる定式化とアプローチの文献レビューの提供を目的とする。
まだ初期段階だが、継続的なrlの研究は、よりインクリメンタルな強化学習者を開発することを約束している。
これには、医療、教育、物流、ロボット工学などの分野の応用が含まれる。
論文 参考訳(メタデータ) (2020-12-25T02:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。