論文の概要: RLHF and IIA: Perverse Incentives
- arxiv url: http://arxiv.org/abs/2312.01057v2
- Date: Thu, 21 Dec 2023 01:30:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 18:02:10.431204
- Title: RLHF and IIA: Perverse Incentives
- Title(参考訳): rlhf と iia: 逆インセンティブ
- Authors: Wanqiao Xu, Shi Dong, Xiuyuan Lu, Grace Lam, Zheng Wen, Benjamin Van
Roy
- Abstract要約: 人間からのフィードバック(RLHF)からの強化学習のための既存のアルゴリズムは、無関係な代替品(IIA)の独立を前提としたモデルであるため、好ましくない反応をインセンティブにすることができる。
IIAによって誘導される逆のインセンティブは、クエリフォーマットや学習アルゴリズムを革新するときに、過激な振る舞いを引き起こす。
- 参考スコア(独自算出の注目度): 33.456046191543116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing algorithms for reinforcement learning from human feedback (RLHF) can
incentivize responses at odds with preferences because they are based on models
that assume independence of irrelevant alternatives (IIA). The perverse
incentives induced by IIA give rise to egregious behavior when innovating on
query formats or learning algorithms.
- Abstract(参考訳): 人間からのフィードバック(RLHF)からの強化学習のための既存のアルゴリズムは、無関係な選択肢(IIA)の独立を前提としたモデルであるため、好ましくない反応をインセンティブにすることができる。
IIAによって誘導される逆のインセンティブは、クエリフォーマットや学習アルゴリズムを革新するときに、過激な振る舞いを引き起こす。
関連論文リスト
- Inverse-Q*: Token Level Reinforcement Learning for Aligning Large Language Models Without Preference Data [25.844968873581244]
Inverse-Q*はトークンレベルの強化学習を最適化することで従来のRL手法を超越する革新的なフレームワークである。
この結果から,Inverse-Q*は従来のRLHFアプローチに代わる実用的で堅牢な代替手段であることがわかった。
論文 参考訳(メタデータ) (2024-08-27T08:43:32Z) - Exploring and Addressing Reward Confusion in Offline Preference Learning [18.905112699951392]
報酬モデルのトレーニングデータにおけるすっきりとした相関は、人間からの強化学習が望ましい目標を特定し、望ましくない行動を引き起こすのを防ぐことができる。
本稿では、特にオフラインデータに急激な相関が存在する場合、オフラインRLHFは、混乱に報いる可能性があることを示す。
本研究では,グローバルな選好連鎖を構築しながら,嗜好の推移性を活用することで,報酬の混乱を著しく低減する手法を提案する。
論文 参考訳(メタデータ) (2024-07-22T20:03:36Z) - Reinforcement Learning from Reflective Feedback (RLRF): Aligning and Improving LLMs via Fine-Grained Self-Reflection [24.435121488662897]
反射フィードバックによる強化学習(RLRF)という新しい枠組みを提案する。
RLRFは自己回帰機構を用いて、LLM応答を体系的に探索し、洗練し、RLアルゴリズムを介してモデルを微調整し、有望な応答を与える。
ジャスト・エバル, ファクタリティ, 数学的推論による実験は, RLRFの有効性と変換ポテンシャルを実証した。
論文 参考訳(メタデータ) (2024-03-21T08:57:27Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Fine-tuning Language Models with Generative Adversarial Reward Modelling [30.424363135421917]
RLHF(Reinforcement Learning with Human Feedback)は、大規模言語モデル(LLM)の性能を大幅に向上させることが実証されている。
我々は、RLHFとSFTに対するRLGAF(Reinforcement Learning with Generative Adversarial Feedback)という別のアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-09T17:06:06Z) - Less is More: Mitigate Spurious Correlations for Open-Domain Dialogue
Response Generation Models by Causal Discovery [52.95935278819512]
本研究で得られたCGDIALOGコーパスに基づくオープンドメイン応答生成モデルのスプリアス相関に関する最初の研究を行った。
因果探索アルゴリズムに着想を得て,反応生成モデルの学習と推論のための新しいモデル非依存手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T06:33:48Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。