論文の概要: Aligning Large Language Models by On-Policy Self-Judgment
- arxiv url: http://arxiv.org/abs/2402.11253v2
- Date: Sun, 3 Mar 2024 21:37:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 00:12:00.362487
- Title: Aligning Large Language Models by On-Policy Self-Judgment
- Title(参考訳): オンライン自己判断による大規模言語モデルの調整
- Authors: Sangkyu Lee, Sungdong Kim, Ashkan Yousefpour, Minjoon Seo, Kang Min
Yoo, Youngjae Yu
- Abstract要約: 大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。
本稿では,オンライン学習を行い,パラメータ効率の高いアライメントフレームワーク,メソッドを提案する。
また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
- 参考スコア(独自算出の注目度): 52.25915009010184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing approaches for aligning large language models with human preferences
face a trade-off that requires a separate reward model (RM) for on-policy
learning. In this paper, we present a novel alignment framework, \method{} that
(1) does on-policy learning and 2) is parameter efficient, as it does not
require an additional RM for evaluating the samples for on-policy learning. To
this end, we propose Judge-augmented Supervised Fine-Tuning (JSFT) to train a
single model to act as both a policy and a judge. Specifically, we view the
pairwise judgment task, choosing the better response from a response pair, as a
special case of the instruction-following task. The resulting model can judge
preferences of on-the-fly responses from current policy initialized from
itself. Experimental results show the efficacy of \method{}, outperforming
baselines in preference benchmarks. We also show that the rejecting sampling by
itself can improve performance further without an additional evaluator.
- Abstract(参考訳): 大規模言語モデルと人間の好みを整合させるための既存のアプローチは、オンポリシー学習に別個の報酬モデル(rm)を必要とするトレードオフに直面している。
本稿では,(1)オンポリシー学習を行うための新しいアライメントフレームワークである \method{} を提案する。
2) パラメータ効率は高く, オンポリシー学習のためのサンプル評価のための追加のrmは不要である。
そこで本研究では,単一モデルを政策と裁判官の両方として機能させるために,審査強化細管(JSFT)を提案する。
具体的には、命令追従タスクの特別な場合として、応答ペアからより良い応答を選択するペアワイズ判断タスクを見る。
結果として得られるモデルは、オンザフライ応答の好みを、それ自体から初期化された現在のポリシーから判断することができる。
実験結果から,プレファレンスベンチマークのベースラインを上回って,<method{}の有効性が示された。
また,リジェクションサンプリング自体が,追加評価器を使わずにさらに性能を向上させることができることを示した。
関連論文リスト
- Is Crowdsourcing Breaking Your Bank? Cost-Effective Fine-Tuning of
Pre-trained Language Models with Proximal Policy Optimization [18.75866961339424]
ChatGPTは、人間のフィードバックによる強化学習の可能性を強調している。
労働コストを削減するために,自己監督型テキストランキング手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T12:24:07Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [53.05529717075474]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
一連の継続的制御タスクにおいて、報酬ベースのアプローチよりもはるかに効率的に学習できることを実証します。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Adversarial Batch Inverse Reinforcement Learning: Learn to Reward from
Imperfect Demonstration for Interactive Recommendation [23.048841953423846]
我々は、強化学習の基礎となる報奨学習の問題に焦点をあてる。
従来のアプローチでは、報酬を得るための追加の手順を導入するか、最適化の複雑さを増大させる。
所望の特性を実現するために, バッチ逆強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-30T13:43:20Z) - Evaluating the Fairness of Discriminative Foundation Models in Computer
Vision [51.176061115977774]
本稿では,CLIP (Contrastive Language-Pretraining) などの差別基盤モデルのバイアス評価のための新しい分類法を提案する。
そして、これらのモデルにおけるバイアスを緩和するための既存の手法を分類学に関して体系的に評価する。
具体的には,ゼロショット分類,画像検索,画像キャプションなど,OpenAIのCLIPとOpenCLIPモデルをキーアプリケーションとして評価する。
論文 参考訳(メタデータ) (2023-10-18T10:32:39Z) - Provable Benefits of Policy Learning from Human Preferences in
Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。
フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-07-24T17:50:24Z) - Model-Based Simulation for Optimising Smart Reply [3.615981646205045]
スマートリプライ(SR)システムは、応答をタイプする代わりに選択できる一連のリプライをユーザに提示する。
これまでの研究は、反応の集合を明示的に学習するのではなく、主にポストホック化に重点を置いてきた。
そこで本研究では,モデルに基づくシミュレーションを用いて高値応答集合を探索する新しい手法SimSRを提案する。
論文 参考訳(メタデータ) (2023-05-26T12:04:33Z) - WSLRec: Weakly Supervised Learning for Neural Sequential Recommendation
Models [24.455665093145818]
我々は、WSLRecと呼ばれる新しいモデルに依存しないトレーニング手法を提案し、3段階のフレームワーク(事前学習、トップ$k$マイニング、本質的、微調整)を採用する。
WSLRec は、BR や ItemCF のようなモデルフリーメソッドから、余分な弱い監督のモデルを事前訓練することで、不完全性の問題を解決すると同時に、最上位の$k のマイニングを活用して、微調整のための弱い監督の信頼性の高いユーザ・イテム関連を検査することで、不正確な問題を解消する。
論文 参考訳(メタデータ) (2022-02-28T08:55:12Z) - Small Changes Make Big Differences: Improving Multi-turn Response
Selection \\in Dialogue Systems via Fine-Grained Contrastive Learning [27.914380392295815]
検索に基づく対話応答選択は、マルチターンコンテキストが与えられた候補集合から適切な応答を求めることを目的としている。
PLMに基づく応答選択タスクのための新しいtextbfFine-textbfGrained textbfContrastive (FGC) 学習法を提案する。
論文 参考訳(メタデータ) (2021-11-19T11:07:07Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。