論文の概要: When Can Proxies Improve the Sample Complexity of Preference Learning?
- arxiv url: http://arxiv.org/abs/2412.16475v1
- Date: Sat, 21 Dec 2024 04:07:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:01:46.778280
- Title: When Can Proxies Improve the Sample Complexity of Preference Learning?
- Title(参考訳): プロキシーはいつ、推論学習のサンプル複雑さを改善できるか?
- Authors: Yuchen Zhu, Daniel Augusto de Souza, Zhengyan Shi, Mengyue Yang, Pasquale Minervini, Alexander D'Amour, Matt J. Kusner,
- Abstract要約: 我々は,代行報酬の最大化が必ずしも真の報酬を増やすとは限らない,報酬ハッキングの問題に対処する。
プロキシフィードバックに関する十分な条件を概説し、満足すれば、プロキシデータが基底真理ポリシーを学習する際のサンプルの複雑さを確実に改善できることを示す。
- 参考スコア(独自算出の注目度): 63.660855773627524
- License:
- Abstract: We address the problem of reward hacking, where maximising a proxy reward does not necessarily increase the true reward. This is a key concern for Large Language Models (LLMs), as they are often fine-tuned on human preferences that may not accurately reflect a true objective. Existing work uses various tricks such as regularisation, tweaks to the reward model, and reward hacking detectors, to limit the influence that such proxy preferences have on a model. Luckily, in many contexts such as medicine, education, and law, a sparse amount of expert data is often available. In these cases, it is often unclear whether the addition of proxy data can improve policy learning. We outline a set of sufficient conditions on proxy feedback that, if satisfied, indicate that proxy data can provably improve the sample complexity of learning the ground truth policy. These conditions can inform the data collection process for specific tasks. The result implies a parameterisation for LLMs that achieves this improved sample complexity. We detail how one can adapt existing architectures to yield this improved sample complexity.
- Abstract(参考訳): 我々は,代行報酬の最大化が必ずしも真の報酬を増やすとは限らない,報酬ハッキングの問題に対処する。
これはLarge Language Models(LLM)にとって重要な関心事である。
既存の作業では、正規化、報酬モデルの変更、報酬のハッキング検出といった様々なトリックを使用して、そのようなプロキシの好みがモデルに与える影響を制限する。
幸いなことに、医学、教育、法といった多くの文脈では、専門的なデータが不足していることが多い。
このような場合、プロキシデータの追加がポリシー学習を改善するかどうかはしばしば不明である。
プロキシフィードバックに関する十分な条件を概説し、満足すれば、プロキシデータが基底真理ポリシーを学習する際のサンプルの複雑さを確実に改善できることを示す。
これらの条件は、特定のタスクに対してデータ収集プロセスに通知することができる。
その結果、この改良されたサンプル複雑性を実現するLLMのパラメータ化が示唆された。
この改善されたサンプル複雑性を実現するために、既存のアーキテクチャをどのように適応させるか、詳しく説明します。
関連論文リスト
- Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - Informative Sample-Aware Proxy for Deep Metric Learning [7.624717642858549]
既存の方法では、比較的少数のサンプルが大きな勾配等級を生成できる。
Informative Sample-Aware Proxy (Proxy-ISA) と呼ばれる新しいプロキシベースの手法を提案する。
スケジュールされたしきい値関数を用いて各サンプルの勾配重み付け係数を修正し、そのモデルがより情報的サンプルに敏感になるようにする。
論文 参考訳(メタデータ) (2022-11-18T17:25:25Z) - Scaling Laws for Reward Model Overoptimization [19.93331579503503]
我々は,ゴールド報酬モデルが,強化学習とベスト・オブ・n$サンプリングのどちらを用いて,プロキシ報酬モデルに対して最適化する際にどのようにスコアが変化するかを検討する。
また、報酬モデルデータセットのサイズ、報酬モデルと政策パラメータの数、および強化学習における報酬に付加されるKLペナルティの係数との関係について検討した。
論文 参考訳(メタデータ) (2022-10-19T17:56:10Z) - Control Variates for Slate Off-Policy Evaluation [112.35528337130118]
多次元動作を伴うバッチ化されたコンテキスト帯域データから政治外評価の問題について検討する。
我々は, PIと自己正規化PIの双方に対して, リスク改善を保証した新しい推定器を得る。
論文 参考訳(メタデータ) (2021-06-15T06:59:53Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z) - A Close Look at Deep Learning with Small Data [0.0]
モデル複雑性は、クラス毎に数個のサンプルしか利用できない場合に重要な要素であることを示す。
また、標準的なデータ拡張であっても、認識性能を大きなマージンで向上させることができることを示す。
論文 参考訳(メタデータ) (2020-03-28T17:11:29Z) - How Transferable are the Representations Learned by Deep Q Agents? [13.740174266824532]
我々は、Deep Reinforcement Learningのサンプル複雑さの源泉について考察する。
我々は、移行学習の利点を、ゼロからポリシーを学ぶことと比較する。
転送による利点は、一般に非常に可変であり、タスクのペア間で非対称である。
論文 参考訳(メタデータ) (2020-02-24T00:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。