Fugu-MT 論文翻訳(概要): A Framework for Partially Observed Reward-States in RLHF

論文の概要: A Framework for Partially Observed Reward-States in RLHF

arxiv url: http://arxiv.org/abs/2402.03282v1
Date: Mon, 5 Feb 2024 18:38:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 14:20:37.528103
Title: A Framework for Partially Observed Reward-States in RLHF
Title（参考訳）: rlhfにおける部分的報酬状態の枠組み
Authors: Chinmaya Kausik, Mirco Mutti, Aldo Pacchiano, Ambuj Tewari
Abstract要約: 部分的に観察された報酬状態(PORRL)を用いた強化学習のモデル化 RLHFにおける2つの主要なフィードバック形式から,PORRLに対するフィードバックの基数とデュエル率の低下を示す。
参考スコア（独自算出の注目度）: 43.053015263618626
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The study of reinforcement learning from human feedback (RLHF) has gained prominence in recent years due to its role in the development of LLMs. Neuroscience research shows that human responses to stimuli are known to depend on partially-observed "internal states." Unfortunately current models of RLHF do not take take this into consideration. Moreover most RLHF models do not account for intermediate feedback, which is gaining importance in empirical work and can help improve both sample complexity and alignment. To address these limitations, we model RLHF as reinforcement learning with partially observed reward-states (PORRL). We show reductions from the the two dominant forms of human feedback in RLHF - cardinal and dueling feedback to PORRL. For cardinal feedback, we develop generic statistically efficient algorithms and instantiate them to present POR-UCRL and POR-UCBVI. For dueling feedback, we show that a naive reduction to cardinal feedback fails to achieve sublinear dueling regret. We then present the first explicit reduction that converts guarantees for cardinal regret to dueling regret. We show that our models and guarantees in both settings generalize and extend existing ones. Finally, we identify a recursive structure on our model that could improve the statistical and computational tractability of PORRL, giving examples from past work on RLHF as well as learning perfect reward machines, which PORRL subsumes.
Abstract（参考訳）: 人間のフィードバックからの強化学習(RLHF)の研究は,近年,LLMの発展に果たす役割から注目されている。神経科学の研究では、人間の刺激に対する反応は部分的に観察された「内的状態」に依存することが知られている。残念ながら、現在のRLHFのモデルは、これを考慮に入れていない。さらに、ほとんどのRLHFモデルは中間的フィードバックを考慮せず、これは経験的作業において重要になり、サンプルの複雑さとアライメントを改善するのに役立つ。これらの制約に対処するために、RLHFを部分的に観察された報酬状態(PORRL)を用いた強化学習としてモデル化する。 RLHFにおける2つの主要なフィードバック形式から,PORRLに対するフィードバックの基数とデュエル率の低下を示す。そこで我々は,一般統計的に効率的なアルゴリズムを開発し,POR-UCRL と POR-UCBVI を提示する。デュエルフィードバックでは, 基本フィードバックに対する素早い削減は, サブリニア・デュエルの後悔を達成できないことを示す。次に,基礎的後悔の保証を決闘的後悔に変換する最初の明示的還元を示す。モデルと保証が両方の設定で一般化され、既存のものを拡張することを示す。最後に、PORRLの統計的および計算的トラクタビリティを向上させることができるモデル上の再帰的構造を同定し、RLHFに関する過去の研究や、PORRLが仮定する完全報酬マシンの学習例を示す。

関連論文リスト

Zero-Shot LLMs in Human-in-the-Loop RL: Replacing Human Feedback for Reward Shaping [0.0]
強化学習はしばしば報酬の相違を伴う課題に直面します。 HIL(Human-in-the-loop)メソッドは、不整合性、主観的、あるいは不整合性フィードバックにつながるバイアスが伴うため、問題を悪化させる可能性がある。
論文参考訳（メタデータ） (2025-03-26T03:17:12Z)
Reward Shaping to Mitigate Reward Hacking in RLHF [47.71454266800376]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の価値の整合に不可欠である。報酬形成はRLHFを安定させ、報酬ハッキングを部分的に軽減する。本稿では,報酬形成手法の総合的研究について述べる。提案手法は,報酬モデル自体に埋め込まれた潜在的嗜好を,強化学習の信号として活用する手法である。
論文参考訳（メタデータ） (2025-02-26T02:57:59Z)
Provably Efficient RLHF Pipeline: A Unified View from Contextual Bandits [59.30310692855397]
本稿では,RLHFパイプラインをコンテキスト的帯域幅の観点から統一したフレームワークを提案する。 RLHFプロセスは、(ポスト-)トレーニングとデプロイメントの2つのステージに分解します。次に,各ステージごとに新しいアルゴリズムを開発し,統計的および計算効率の両面で有意な改善を示す。
論文参考訳（メタデータ） (2025-02-11T02:36:01Z)
Reinforcement Learning with Segment Feedback [56.54271464134885]
状態ごとの反応フィードバックと軌道フィードバックのギャップを埋める一般的なパラダイムを提供するRLというモデルを考える。バイナリフィードバックの下では、$m$のセグメント数の増加は指数率で後悔を減少させるが、驚くべきことに、和フィードバックの下では、$m$の増加は後悔を著しく減少させるものではない。
論文参考訳（メタデータ） (2025-02-03T23:08:42Z)
Reward Modeling with Ordinal Feedback: Wisdom of the Crowd [9.034189257088762]
人間の好みから報酬モデル(RM)を学ぶことは、大きな言語モデルを調整する上で重要な要素である。順序フィードバックの下でRMを学習するためのフレームワークを提案する。我々は,Rademacher複雑性の低減の観点から,順序フィードバックの統計的利点を証明した。
論文参考訳（メタデータ） (2024-11-19T20:17:04Z)
Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。適切な前提の下では、単純な後悔に縛られる。
論文参考訳（メタデータ） (2024-10-22T14:36:44Z)
Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback [8.601283886845664]
人間のフィードバック(RLHF)からの強化学習は、大規模言語モデル(LLM)と人間の意図と価値を一致させる。その効果と人気にもかかわらず、RLHFは局所最適化に偏っている。本稿では,新しいテキストシーケンス・ツー・シーケンス(seq2seq)報酬モデリング手法を提案する。
論文参考訳（メタデータ） (2024-08-30T16:14:35Z)
The N+ Implementation Details of RLHF with PPO: A Case Study on TL;DR Summarization [8.911768677958753]
この研究は、OpenAIのセミナルTL;DR要約作業で報告された人間のフィードバックスケーリング行動から強化学習をオープンに再現した最初のものである。我々は、ゼロからRLHFパイプラインを作成し、20以上の重要な実装の詳細を列挙し、再現の間に重要な洞察を共有します。
論文参考訳（メタデータ） (2024-03-24T02:59:27Z)
Unfamiliar Finetuning Examples Control How Language Models Hallucinate [75.03210107477157]
大規模な言語モデルは、馴染みのないクエリに直面した時に幻覚化することが知られている。モデルの微調整データの見慣れない例は、これらのエラーを形作るのに不可欠である。本研究は,RLファインタニング戦略をさらに研究し,長大なモデル生成の現実性を改善することを目的とする。
論文参考訳（メタデータ） (2024-03-08T18:28:13Z)
Iterative Data Smoothing: Mitigating Reward Overfitting and Overoptimization in RLHF [79.98542868281471]
強化学習(Reinforcement Learning from Human Feedback, RLHF)は、言語モデルを人間中心の値と密接に整合させる手法である。学習した報奨モデルに対して過度に最適化すると、最終的には真の目的が損なわれることが観察された。本稿では、これらの問題を考察し、「Iterative Data Smoothing」(IDS)と呼ばれる改良された報酬学習アルゴリズムの設計に理論的知見を活用する。
論文参考訳（メタデータ） (2024-01-29T17:43:42Z)
Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文参考訳（メタデータ） (2024-01-11T17:56:59Z)
The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from Human Feedback [5.037876196534672]
人間のフィードバックからの強化学習(RLHF)は、複雑な環境で大きな言語モデル(LLM)をより有効にするための強力な技術として登場した。本稿では,本問題の原因を概説し,モデルに基づく強化学習から関連する文献をレビューし,解決策について議論する。
論文参考訳（メタデータ） (2023-10-31T21:52:41Z)
SuperHF: Supervised Iterative Learning from Human Feedback [20.22920163075946]
我々は,大規模言語モデル,Supervised Fine-Tuning (SFT) とReinforcement Learning from Human Feedback (RLHF) の2つの一般的な手法に着目した。両手法の強みを生かした新しい手法であるSupervised Iterative Learning from Human Feedback (SuperHF)を提案する。実験の結果,SuperHF は PPO ベースの RLHF を超え,高い報酬を低報酬ハッキングで容易にかつ好意的に取り除き,下流校正を改善し,GPT-4 ベースの定性評価スキームでも同様に実施し,実装は極めて簡単であった。
論文参考訳（メタデータ） (2023-10-25T16:52:00Z)
A Long Way to Go: Investigating Length Correlations in RLHF [59.49656695716066]
本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
論文参考訳（メタデータ） (2023-10-05T17:38:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。