論文の概要: A Framework for Partially Observed Reward-States in RLHF
- arxiv url: http://arxiv.org/abs/2402.03282v1
- Date: Mon, 5 Feb 2024 18:38:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 14:20:37.528103
- Title: A Framework for Partially Observed Reward-States in RLHF
- Title(参考訳): rlhfにおける部分的報酬状態の枠組み
- Authors: Chinmaya Kausik, Mirco Mutti, Aldo Pacchiano, Ambuj Tewari
- Abstract要約: 部分的に観察された報酬状態(PORRL)を用いた強化学習のモデル化
RLHFにおける2つの主要なフィードバック形式から,PORRLに対するフィードバックの基数とデュエル率の低下を示す。
- 参考スコア(独自算出の注目度): 43.053015263618626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The study of reinforcement learning from human feedback (RLHF) has gained
prominence in recent years due to its role in the development of LLMs.
Neuroscience research shows that human responses to stimuli are known to depend
on partially-observed "internal states." Unfortunately current models of RLHF
do not take take this into consideration. Moreover most RLHF models do not
account for intermediate feedback, which is gaining importance in empirical
work and can help improve both sample complexity and alignment. To address
these limitations, we model RLHF as reinforcement learning with partially
observed reward-states (PORRL). We show reductions from the the two dominant
forms of human feedback in RLHF - cardinal and dueling feedback to PORRL. For
cardinal feedback, we develop generic statistically efficient algorithms and
instantiate them to present POR-UCRL and POR-UCBVI. For dueling feedback, we
show that a naive reduction to cardinal feedback fails to achieve sublinear
dueling regret. We then present the first explicit reduction that converts
guarantees for cardinal regret to dueling regret. We show that our models and
guarantees in both settings generalize and extend existing ones. Finally, we
identify a recursive structure on our model that could improve the statistical
and computational tractability of PORRL, giving examples from past work on RLHF
as well as learning perfect reward machines, which PORRL subsumes.
- Abstract(参考訳): 人間のフィードバックからの強化学習(RLHF)の研究は,近年,LLMの発展に果たす役割から注目されている。
神経科学の研究では、人間の刺激に対する反応は部分的に観察された「内的状態」に依存することが知られている。
残念ながら、現在のRLHFのモデルは、これを考慮に入れていない。
さらに、ほとんどのRLHFモデルは中間的フィードバックを考慮せず、これは経験的作業において重要になり、サンプルの複雑さとアライメントを改善するのに役立つ。
これらの制約に対処するために、RLHFを部分的に観察された報酬状態(PORRL)を用いた強化学習としてモデル化する。
RLHFにおける2つの主要なフィードバック形式から,PORRLに対するフィードバックの基数とデュエル率の低下を示す。
そこで我々は,一般統計的に効率的なアルゴリズムを開発し,POR-UCRL と POR-UCBVI を提示する。
デュエルフィードバックでは, 基本フィードバックに対する素早い削減は, サブリニア・デュエルの後悔を達成できないことを示す。
次に,基礎的後悔の保証を決闘的後悔に変換する最初の明示的還元を示す。
モデルと保証が両方の設定で一般化され、既存のものを拡張することを示す。
最後に、PORRLの統計的および計算的トラクタビリティを向上させることができるモデル上の再帰的構造を同定し、RLHFに関する過去の研究や、PORRLが仮定する完全報酬マシンの学習例を示す。
関連論文リスト
- Reward Modeling with Ordinal Feedback: Wisdom of the Crowd [9.034189257088762]
人間の好みから報酬モデル(RM)を学ぶことは、大きな言語モデルを調整する上で重要な要素である。
順序フィードバックの下でRMを学習するためのフレームワークを提案する。
我々は,Rademacher複雑性の低減の観点から,順序フィードバックの統計的利点を証明した。
論文 参考訳(メタデータ) (2024-11-19T20:17:04Z) - Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。
有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。
適切な前提の下では、単純な後悔に縛られる。
論文 参考訳(メタデータ) (2024-10-22T14:36:44Z) - Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback [8.601283886845664]
人間のフィードバック(RLHF)からの強化学習は、大規模言語モデル(LLM)と人間の意図と価値を一致させる。
その効果と人気にもかかわらず、RLHFは局所最適化に偏っている。
本稿では,新しいテキストシーケンス・ツー・シーケンス(seq2seq)報酬モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T16:14:35Z) - The N+ Implementation Details of RLHF with PPO: A Case Study on TL;DR Summarization [8.911768677958753]
この研究は、OpenAIのセミナルTL;DR要約作業で報告された人間のフィードバックスケーリング行動から強化学習をオープンに再現した最初のものである。
我々は、ゼロからRLHFパイプラインを作成し、20以上の重要な実装の詳細を列挙し、再現の間に重要な洞察を共有します。
論文 参考訳(メタデータ) (2024-03-24T02:59:27Z) - Unfamiliar Finetuning Examples Control How Language Models Hallucinate [75.03210107477157]
大規模な言語モデルは、馴染みのないクエリに直面した時に幻覚化することが知られている。
モデルの微調整データの見慣れない例は、これらのエラーを形作るのに不可欠である。
本研究は,RLファインタニング戦略をさらに研究し,長大なモデル生成の現実性を改善することを目的とする。
論文 参考訳(メタデータ) (2024-03-08T18:28:13Z) - Iterative Data Smoothing: Mitigating Reward Overfitting and
Overoptimization in RLHF [79.98542868281471]
強化学習(Reinforcement Learning from Human Feedback, RLHF)は、言語モデルを人間中心の値と密接に整合させる手法である。
学習した報奨モデルに対して過度に最適化すると、最終的には真の目的が損なわれることが観察された。
本稿では、これらの問題を考察し、「Iterative Data Smoothing」(IDS)と呼ばれる改良された報酬学習アルゴリズムの設計に理論的知見を活用する。
論文 参考訳(メタデータ) (2024-01-29T17:43:42Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from
Human Feedback [5.037876196534672]
人間のフィードバックからの強化学習(RLHF)は、複雑な環境で大きな言語モデル(LLM)をより有効にするための強力な技術として登場した。
本稿では,本問題の原因を概説し,モデルに基づく強化学習から関連する文献をレビューし,解決策について議論する。
論文 参考訳(メタデータ) (2023-10-31T21:52:41Z) - SuperHF: Supervised Iterative Learning from Human Feedback [20.22920163075946]
我々は,大規模言語モデル,Supervised Fine-Tuning (SFT) とReinforcement Learning from Human Feedback (RLHF) の2つの一般的な手法に着目した。
両手法の強みを生かした新しい手法であるSupervised Iterative Learning from Human Feedback (SuperHF)を提案する。
実験の結果,SuperHF は PPO ベースの RLHF を超え,高い報酬を低報酬ハッキングで容易にかつ好意的に取り除き,下流校正を改善し,GPT-4 ベースの定性評価スキームでも同様に実施し,実装は極めて簡単であった。
論文 参考訳(メタデータ) (2023-10-25T16:52:00Z) - A Long Way to Go: Investigating Length Correlations in RLHF [59.49656695716066]
本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。
報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。
純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
論文 参考訳(メタデータ) (2023-10-05T17:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。