Fugu-MT 論文翻訳(概要): A Survey of Reinforcement Learning from Human Feedback

論文の概要: A Survey of Reinforcement Learning from Human Feedback

arxiv url: http://arxiv.org/abs/2312.14925v2
Date: Tue, 30 Apr 2024 17:59:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-01 19:28:13.210540
Title: A Survey of Reinforcement Learning from Human Feedback
Title（参考訳）: 人のフィードバックによる強化学習の実態調査
Authors: Timo Kaufmann, Paul Weng, Viktor Bengs, Eyke Hüllermeier,
Abstract要約: 人間からのフィードバックからの強化学習(RLHF)は、工学的な報酬関数に頼るのではなく、人間のフィードバックから学習する強化学習(RL)の一種である。本稿では、RLHFの基礎を概観し、RLエージェントとヒューマンインプットの複雑なダイナミクスを探求する。
参考スコア（独自算出の注目度）: 28.92654784501927
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning from human feedback (RLHF) is a variant of reinforcement learning (RL) that learns from human feedback instead of relying on an engineered reward function. Building on prior work on the related setting of preference-based reinforcement learning (PbRL), it stands at the intersection of artificial intelligence and human-computer interaction. This positioning offers a promising avenue to enhance the performance and adaptability of intelligent systems while also improving the alignment of their objectives with human values. The training of large language models (LLMs) has impressively demonstrated this potential in recent years, where RLHF played a decisive role in directing the model's capabilities toward human objectives. This article provides a comprehensive overview of the fundamentals of RLHF, exploring the intricate dynamics between RL agents and human input. While recent focus has been on RLHF for LLMs, our survey adopts a broader perspective, examining the diverse applications and wide-ranging impact of the technique. We delve into the core principles that underpin RLHF, shedding light on the symbiotic relationship between algorithms and human feedback, and discuss the main research trends in the field. By synthesizing the current landscape of RLHF research, this article aims to provide researchers as well as practitioners with a comprehensive understanding of this rapidly growing field of research.
Abstract（参考訳）: 人間からのフィードバックからの強化学習(RLHF)は、工学的な報酬関数に頼るのではなく、人間のフィードバックから学習する強化学習(RL)の一種である。嗜好に基づく強化学習(PbRL)に関する先行研究に基づいて、人工知能と人間とコンピュータの相互作用の交差点に立っている。この位置付けは、知的システムのパフォーマンスと適応性を高めるとともに、目的と人間の価値の整合性を向上させるための有望な道を提供する。大規模言語モデル(LLM)の訓練は、近年、人間の目的に向けてモデルの能力を導く上で、RLHFが決定的な役割を担っているという、この可能性を顕著に証明している。本稿では、RLHFの基礎を概観し、RLエージェントとヒューマンインプットの複雑なダイナミクスを探求する。近年, LLM の RLHF に焦点が当てられているが,本調査では多種多様な応用, 広範にわたる影響について, より広い視点で検討している。我々は、RLHFの基盤となる中核的な原理を探求し、アルゴリズムと人間のフィードバックの共生関係に光を当て、この分野における主要な研究動向について議論する。本稿は,RLHF研究の現況を合成することによって,この急成長する研究分野の包括的理解を研究者や実践者に提供することを目的とする。

関連論文リスト

Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。 Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文参考訳（メタデータ） (2025-09-23T17:10:40Z)
A Survey of Reinforcement Learning for Large Reasoning Models [98.58081012669369]
大規模言語モデルによる推論のための強化学習の最近の進歩について LRMのためのRLのさらなるスケーリングは、計算資源だけでなく、アルゴリズム設計、トレーニングデータ、インフラにおいても課題に直面している。
論文参考訳（メタデータ） (2025-09-10T17:59:43Z)
Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities [62.05713042908654]
本稿では,逆強化学習(IRL)のレンズによる大規模言語モデル(LLM)のアライメントの進歩について概観する。我々は、人間のデータからニューラル報酬モデルを構築する必要性を強調し、このパラダイムシフトの形式的および実践的意味について議論する。
論文参考訳（メタデータ） (2025-07-17T14:22:24Z)
Exploring Data Scaling Trends and Effects in Reinforcement Learning from Human Feedback [12.7099489697479]
本稿では、推論タスク検証器(RTV)と生成報酬モデル(GenRM)を組み合わせたハイブリッド報酬システムを導入し、報酬ハッキングを緩和する。また,応答の多様性を維持し,学習効率を高めるために,新しいプロンプト選択手法であるPre-PPOを提案する。
論文参考訳（メタデータ） (2025-03-28T08:26:41Z)
Curiosity-Driven Reinforcement Learning from Human Feedback [56.45486828254951]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の好みを一致させるのに有効であるが、出力の多様性を減らすためにしばしば効果的である。好奇心駆動型RLHF(CD-RLHF)を導入する。テキスト要約や命令追従を含むタスクの広範な実験を通じて,CD-RLHFの有効性を実証する。
論文参考訳（メタデータ） (2025-01-20T12:51:40Z)
Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF [82.7679132059169]
人間のフィードバックから強化学習が言語モデルのアライメントのための中心的なツールとして登場した。我々は、RLHFにおけるオンライン探索のための新しいアルゴリズム、Exploratory Preference Optimization (XPO)を提案する。 XPOは証明可能な最強の保証と有望な経験的パフォーマンスを享受しています。
論文参考訳（メタデータ） (2024-05-31T17:39:06Z)
Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文参考訳（メタデータ） (2024-05-23T14:53:54Z)
RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs [49.386699863989335]
大きな言語モデル(LLM)を訓練し、人間の効果的なアシスタントとして機能させるには、慎重に検討する必要がある。有望なアプローチとして、人間からのフィードバック(RLHF)からの強化学習がある。本稿では、強化学習原理のレンズを通してRLHFを分析し、その基礎を理解する。
論文参考訳（メタデータ） (2024-04-12T15:54:15Z)
Exploration-Driven Policy Optimization in RLHF: Theoretical Insights on Efficient Data Utilization [56.54271464134885]
ポリシー最適化(PO-RLHF)に基づくRLHFアルゴリズムの検討クエリの複雑さが低いPO-RLHFの性能バウンダリを提供する。鍵となる新規性は、軌跡レベルの楕円ポテンシャル分析である。
論文参考訳（メタデータ） (2024-02-15T22:11:18Z)
The History and Risks of Reinforcement Learning and Human Feedback [0.16843915833103415]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデルをより使いやすく、より効果的にするための強力なテクニックとして登場した。 RLHFプロセスの中核は、最適化のための報酬関数として機能する人間の好みのモデルのトレーニングと利用である。 RLHF報酬モデルはしばしばパフォーマンスの達成の中心として言及されるが、能力、評価、トレーニング方法、オープンソースのモデルに関する記述はごくわずかである。
論文参考訳（メタデータ） (2023-10-20T15:45:16Z)
A Long Way to Go: Investigating Length Correlations in RLHF [59.49656695716066]
本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
論文参考訳（メタデータ） (2023-10-05T17:38:28Z)
Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文参考訳（メタデータ） (2023-07-11T01:55:24Z)
Evolutionary Reinforcement Learning: A Survey [31.112066295496003]
強化学習(Reinforcement Learning、RL)は、エージェントが環境とのインタラクションを通じて累積報酬を最大化するように訓練する機械学習アプローチである。本稿では、進化強化学習(EvoRL)と呼ばれる、ECをRLに統合するための最先端手法に関する総合的な調査を紹介する。
論文参考訳（メタデータ） (2023-03-07T01:38:42Z)
Towards Interactive Reinforcement Learning with Intrinsic Feedback [1.7117805951258132]
強化学習(RL)と脳-コンピュータインターフェース(BCI)は、過去10年間で大きな成長を遂げてきた。 HITL(Human-in-the-loop)への関心が高まり、RLアルゴリズムに人間の入力を組み込むことで、インタラクティブなRLのサブフィールドが生まれている。この新たな,新たなフィードバック媒体を本質的なフィードバックと表現する。
論文参考訳（メタデータ） (2021-12-02T19:29:26Z)
Towards Continual Reinforcement Learning: A Review and Perspectives [69.48324517535549]
我々は,連続的強化学習(RL)に対する異なる定式化とアプローチの文献レビューの提供を目的とする。まだ初期段階だが、継続的なrlの研究は、よりインクリメンタルな強化学習者を開発することを約束している。これには、医療、教育、物流、ロボット工学などの分野の応用が含まれる。
論文参考訳（メタデータ） (2020-12-25T02:35:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。