Fugu-MT 論文翻訳(概要): A Theoretical Framework for Partially Observed Reward-States in RLHF

論文の概要: A Theoretical Framework for Partially Observed Reward-States in RLHF

arxiv url: http://arxiv.org/abs/2402.03282v3
Date: Sat, 09 Nov 2024 07:09:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.604159
Title: A Theoretical Framework for Partially Observed Reward-States in RLHF
Title（参考訳）: RLHFにおける部分的に観測された逆状態の理論的枠組み
Authors: Chinmaya Kausik, Mirco Mutti, Aldo Pacchiano, Ambuj Tewari,
Abstract要約: 部分的に観察された報酬状態(PORRL)を用いた強化学習のモデル化フィードバックは2種類あり、$-$ cardinal と dueling の2種類があります。両方のフィードバック設定において、我々のモデルと保証が既存のモデルを一般化し拡張することを示します。
参考スコア（独自算出の注目度）: 39.41038579993645
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The growing deployment of reinforcement learning from human feedback (RLHF) calls for a deeper theoretical investigation of its underlying models. The prevalent models of RLHF do not account for neuroscience-backed, partially-observed "internal states" that can affect human feedback, nor do they accommodate intermediate feedback during an interaction. Both of these can be instrumental in speeding up learning and improving alignment. To address these limitations, we model RLHF as reinforcement learning with partially observed reward-states (PORRL). We accommodate two kinds of feedback $-$ cardinal and dueling feedback. We first demonstrate that PORRL subsumes a wide class of RL problems, including traditional RL, RLHF, and reward machines. For cardinal feedback, we present two model-based methods (POR-UCRL, POR-UCBVI). We give both cardinal regret and sample complexity guarantees for the methods, showing that they improve over naive history-summarization. We then discuss the benefits of a model-free method like GOLF with naive history-summarization in settings with recursive internal states and dense intermediate feedback. For this purpose, we define a new history aware version of the Bellman-eluder dimension and give a new guarantee for GOLF in our setting, which can be exponentially sharper in illustrative examples. For dueling feedback, we show that a naive reduction to cardinal feedback fails to achieve sublinear dueling regret. We then present the first explicit reduction that converts guarantees for cardinal regret to dueling regret. In both feedback settings, we show that our models and guarantees generalize and extend existing ones.
Abstract（参考訳）: 人的フィードバック(RLHF)からの強化学習の展開は、その基盤となるモデルに関するより深い理論的研究を求めている。 RLHFの一般的なモデルは、人間のフィードバックに影響を及ぼす可能性のある神経科学に支えられた、部分的に観察された「内部状態」や、相互作用中に中間的なフィードバックを許容するものではない。どちらも、学習のスピードアップとアライメントの改善に役立ちます。これらの制約に対処するために、RLHFを部分的に観察された報酬状態(PORRL)を用いた強化学習としてモデル化する。フィードバックは2種類あり、$-$ cardinal と dueling の2種類があります。まず、PORRLは従来のRL、RLHF、報酬機など、幅広いRL問題を仮定することを示した。本稿では,2つのモデルベース手法(POR-UCRL,POR-UCBVI)を提案する。本手法では, 基本的後悔と標本的複雑性の両方を保証し, 生来の履歴の要約よりも改善されていることを示す。次に,再帰的な内部状態と高密度な中間フィードバックを持つ設定において,GOLFのようなモデル不要な手法が生み出す利点について論じる。この目的のために、ベルマン・エルダー次元の新しい履歴認識バージョンを定義し、我々の設定においてGOLFに対する新しい保証を与える。デュエルフィードバックでは, 基本フィードバックに対する素早い削減は, サブリニア・デュエルの後悔を達成できないことを示す。次に、最初の明示的な削減を行い、後悔を和らげることによる後悔の保証を変換する。両方のフィードバック設定において、我々のモデルと保証が既存のモデルを一般化し拡張することを示します。

関連論文リスト

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning [56.29188272643489]
GOLFは,グループレベルの言語フィードバックを利用して探索を誘導するRLフレームワークである。 GOLFは、エラーを特定したり、目標とする修正を提案したりする外部批判を集約し、代替部分的なアイデアと多様な障害パターンを提供するグループ内の試みを行う。検証可能なベンチマークと検証できないベンチマークの両方の実験は、GOLFが優れた性能と探索効率を達成することを示している。
論文参考訳（メタデータ） (2026-03-04T20:53:17Z)
Mitigating Length Bias in RLHF through a Causal Lens [8.334918207379173]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の好みを合わせるために広く用いられている。本稿では,RLHF報酬モデルにおける長さバイアスの分析と緩和のための因果的枠組みを提案する。
論文参考訳（メタデータ） (2025-11-16T12:25:10Z)
The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文参考訳（メタデータ） (2025-09-09T06:34:32Z)
Zero-Shot LLMs in Human-in-the-Loop RL: Replacing Human Feedback for Reward Shaping [0.0]
強化学習はしばしば報酬の相違を伴う課題に直面します。 HIL(Human-in-the-loop)メソッドは、不整合性、主観的、あるいは不整合性フィードバックにつながるバイアスが伴うため、問題を悪化させる可能性がある。
論文参考訳（メタデータ） (2025-03-26T03:17:12Z)
Reward Shaping to Mitigate Reward Hacking in RLHF [47.71454266800376]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の価値の整合に不可欠である。報酬形成はRLHFを安定させ、報酬ハッキングを部分的に軽減する。本稿では,報酬形成手法の総合的研究について述べる。提案手法は,報酬モデル自体に埋め込まれた潜在的嗜好を,強化学習の信号として活用する手法である。
論文参考訳（メタデータ） (2025-02-26T02:57:59Z)
Provably Efficient RLHF Pipeline: A Unified View from Contextual Bandits [59.30310692855397]
本稿では,RLHFパイプラインをコンテキスト的帯域幅の観点から統一したフレームワークを提案する。 RLHFプロセスは、(ポスト-)トレーニングとデプロイメントの2つのステージに分解します。次に,各ステージごとに新しいアルゴリズムを開発し,統計的および計算効率の両面で有意な改善を示す。
論文参考訳（メタデータ） (2025-02-11T02:36:01Z)
Reinforcement Learning with Segment Feedback [56.54271464134885]
状態ごとの反応フィードバックと軌道フィードバックのギャップを埋める一般的なパラダイムを提供するRLというモデルを考える。バイナリフィードバックの下では、$m$のセグメント数の増加は指数率で後悔を減少させるが、驚くべきことに、和フィードバックの下では、$m$の増加は後悔を著しく減少させるものではない。
論文参考訳（メタデータ） (2025-02-03T23:08:42Z)
Reward Modeling with Ordinal Feedback: Wisdom of the Crowd [9.034189257088762]
人間の好みから報酬モデル(RM)を学ぶことは、大きな言語モデルを調整する上で重要な要素である。順序フィードバックの下でRMを学習するためのフレームワークを提案する。我々は,Rademacher複雑性の低減の観点から,順序フィードバックの統計的利点を証明した。
論文参考訳（メタデータ） (2024-11-19T20:17:04Z)
Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。適切な前提の下では、単純な後悔に縛られる。
論文参考訳（メタデータ） (2024-10-22T14:36:44Z)
Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback [8.601283886845664]
人間のフィードバック(RLHF)からの強化学習は、大規模言語モデル(LLM)と人間の意図と価値を一致させる。その効果と人気にもかかわらず、RLHFは局所最適化に偏っている。本稿では,新しいテキストシーケンス・ツー・シーケンス(seq2seq)報酬モデリング手法を提案する。
論文参考訳（メタデータ） (2024-08-30T16:14:35Z)
The N+ Implementation Details of RLHF with PPO: A Case Study on TL;DR Summarization [8.911768677958753]
この研究は、OpenAIのセミナルTL;DR要約作業で報告された人間のフィードバックスケーリング行動から強化学習をオープンに再現した最初のものである。我々は、ゼロからRLHFパイプラインを作成し、20以上の重要な実装の詳細を列挙し、再現の間に重要な洞察を共有します。
論文参考訳（メタデータ） (2024-03-24T02:59:27Z)
Unfamiliar Finetuning Examples Control How Language Models Hallucinate [75.03210107477157]
大規模な言語モデルは、馴染みのないクエリに直面した時に幻覚化することが知られている。モデルの微調整データの見慣れない例は、これらのエラーを形作るのに不可欠である。本研究は,RLファインタニング戦略をさらに研究し,長大なモデル生成の現実性を改善することを目的とする。
論文参考訳（メタデータ） (2024-03-08T18:28:13Z)
Iterative Data Smoothing: Mitigating Reward Overfitting and Overoptimization in RLHF [79.98542868281471]
強化学習(Reinforcement Learning from Human Feedback, RLHF)は、言語モデルを人間中心の値と密接に整合させる手法である。学習した報奨モデルに対して過度に最適化すると、最終的には真の目的が損なわれることが観察された。本稿では、これらの問題を考察し、「Iterative Data Smoothing」(IDS)と呼ばれる改良された報酬学習アルゴリズムの設計に理論的知見を活用する。
論文参考訳（メタデータ） (2024-01-29T17:43:42Z)
Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文参考訳（メタデータ） (2024-01-11T17:56:59Z)
The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from Human Feedback [5.037876196534672]
人間のフィードバックからの強化学習(RLHF)は、複雑な環境で大きな言語モデル(LLM)をより有効にするための強力な技術として登場した。本稿では,本問題の原因を概説し,モデルに基づく強化学習から関連する文献をレビューし,解決策について議論する。
論文参考訳（メタデータ） (2023-10-31T21:52:41Z)
SuperHF: Supervised Iterative Learning from Human Feedback [20.22920163075946]
我々は,大規模言語モデル,Supervised Fine-Tuning (SFT) とReinforcement Learning from Human Feedback (RLHF) の2つの一般的な手法に着目した。両手法の強みを生かした新しい手法であるSupervised Iterative Learning from Human Feedback (SuperHF)を提案する。実験の結果,SuperHF は PPO ベースの RLHF を超え,高い報酬を低報酬ハッキングで容易にかつ好意的に取り除き,下流校正を改善し,GPT-4 ベースの定性評価スキームでも同様に実施し,実装は極めて簡単であった。
論文参考訳（メタデータ） (2023-10-25T16:52:00Z)
A Long Way to Go: Investigating Length Correlations in RLHF [59.49656695716066]
本稿では, 応答長の最適化がRLHFの重要な要因であることを示す。報酬の改善は、他の機能ではなく、レスポンス長の増加によって大きく引き起こされると思います。純粋に長さベースの報酬でさえ、教師付き微調整モデルよりも下流のRLHFの改善を再現する。
論文参考訳（メタデータ） (2023-10-05T17:38:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。