論文の概要: Aligning Large Language Models by On-Policy Self-Judgment
- arxiv url: http://arxiv.org/abs/2402.11253v1
- Date: Sat, 17 Feb 2024 11:25:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 22:25:14.065635
- Title: Aligning Large Language Models by On-Policy Self-Judgment
- Title(参考訳): オンライン自己判断による大規模言語モデルの調整
- Authors: Sangkyu Lee, Sungdong Kim, Ashkan Yousefpour, Minjoon Seo, Kang Min
Yoo, Youngjae Yu
- Abstract要約: 本稿では,1)オンライン学習と2)パラメータ効率の新たなフレームワークであるSELF-JUDGEを提案する。
本稿では,政策と裁判官の双方に作用する単一モデルの訓練を行うために,審査員補助細管(JSFT)を提案する。
評価実験の結果,SELF-JUDGEは選好ベンチマークのベースラインよりも優れていた。
- 参考スコア(独自算出の注目度): 52.25915009010184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To align large language models with human preferences, existing research
either utilizes a separate reward model (RM) to perform on-policy learning or
simplifies the training procedure by discarding the on-policy learning and the
need for a separate RM. In this paper, we present a novel alignment framework,
SELF-JUDGE that is (1) on-policy learning and 2) parameter efficient, as it
does not require an additional RM for evaluating the samples for on-policy
learning. To this end, we propose Judge-augmented Supervised Fine-Tuning (JSFT)
to train a single model acting as both a policy and a judge. Specifically, we
view the pairwise judgment task as a special case of the instruction-following
task, choosing the better response from a response pair. Thus, the resulting
model can judge preferences of on-the-fly responses from current policy
initialized from itself. Experimental results show the efficacy of SELF-JUDGE,
outperforming baselines in preference benchmarks. We also show that
self-rejection with oversampling can improve further without an additional
evaluator. Our code is available at https://github.com/oddqueue/self-judge.
- Abstract(参考訳): 大規模言語モデルと人間の好みを整合させるために、既存の研究は、個別報酬モデル(rm)を使用してオンポリシー学習を行うか、オンポリシー学習と個別のrmの必要性を捨ててトレーニング手順を単純化する。
本稿では,新しいアライメントフレームワークであるSELF-JUDGEについて述べる。
2) パラメータ効率は, オンライン学習のサンプルを評価するための追加のRMを必要としない。
そこで本研究では,政策と裁判官の両方として機能する単一モデルの訓練を行うために,審査強化細管(JSFT)を提案する。
具体的には、ペアの判断タスクを命令追従タスクの特別なケースとみなし、応答対からより良い応答を選択する。
したがって、結果として得られたモデルは、それ自体から初期化された現在のポリシーからのオンザフライ応答の好みを判断することができる。
評価実験の結果,SELF-JUDGEは選好ベンチマークのベースラインを上回った。
また, オーバーサンプリングによる自己拒絶は, 追加評価器を使わずにさらに改善できることを示した。
私たちのコードはhttps://github.com/oddqueue/self-judgeで入手できる。
関連論文リスト
- Principled RLHF from Heterogeneous Feedback via Personalization and Preference Aggregation [23.337350061258903]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムを人間の価値と整合させる効果的な手法である。
本稿では、人間の嗜好に固有の異質性や、フィードバックの提供における潜在的な戦略的行動から、この問題に対処することに焦点を当てる。
本研究では, 個人化に基づく手法と集約に基づく手法の2つの枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-30T23:57:23Z) - Is Crowdsourcing Breaking Your Bank? Cost-Effective Fine-Tuning of
Pre-trained Language Models with Proximal Policy Optimization [18.75866961339424]
ChatGPTは、人間のフィードバックによる強化学習の可能性を強調している。
労働コストを削減するために,自己監督型テキストランキング手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T12:24:07Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [53.05529717075474]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
一連の継続的制御タスクにおいて、報酬ベースのアプローチよりもはるかに効率的に学習できることを実証します。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Adversarial Batch Inverse Reinforcement Learning: Learn to Reward from
Imperfect Demonstration for Interactive Recommendation [23.048841953423846]
我々は、強化学習の基礎となる報奨学習の問題に焦点をあてる。
従来のアプローチでは、報酬を得るための追加の手順を導入するか、最適化の複雑さを増大させる。
所望の特性を実現するために, バッチ逆強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-30T13:43:20Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Provable Benefits of Policy Learning from Human Preferences in
Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。
フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-07-24T17:50:24Z) - Model-Based Simulation for Optimising Smart Reply [3.615981646205045]
スマートリプライ(SR)システムは、応答をタイプする代わりに選択できる一連のリプライをユーザに提示する。
これまでの研究は、反応の集合を明示的に学習するのではなく、主にポストホック化に重点を置いてきた。
そこで本研究では,モデルに基づくシミュレーションを用いて高値応答集合を探索する新しい手法SimSRを提案する。
論文 参考訳(メタデータ) (2023-05-26T12:04:33Z) - Small Changes Make Big Differences: Improving Multi-turn Response
Selection \\in Dialogue Systems via Fine-Grained Contrastive Learning [27.914380392295815]
検索に基づく対話応答選択は、マルチターンコンテキストが与えられた候補集合から適切な応答を求めることを目的としている。
PLMに基づく応答選択タスクのための新しいtextbfFine-textbfGrained textbfContrastive (FGC) 学習法を提案する。
論文 参考訳(メタデータ) (2021-11-19T11:07:07Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。