論文の概要: Aligning Large Language Models by On-Policy Self-Judgment
- arxiv url: http://arxiv.org/abs/2402.11253v1
- Date: Sat, 17 Feb 2024 11:25:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 22:25:14.065635
- Title: Aligning Large Language Models by On-Policy Self-Judgment
- Title(参考訳): オンライン自己判断による大規模言語モデルの調整
- Authors: Sangkyu Lee, Sungdong Kim, Ashkan Yousefpour, Minjoon Seo, Kang Min
Yoo, Youngjae Yu
- Abstract要約: 本稿では,1)オンライン学習と2)パラメータ効率の新たなフレームワークであるSELF-JUDGEを提案する。
本稿では,政策と裁判官の双方に作用する単一モデルの訓練を行うために,審査員補助細管(JSFT)を提案する。
評価実験の結果,SELF-JUDGEは選好ベンチマークのベースラインよりも優れていた。
- 参考スコア(独自算出の注目度): 52.25915009010184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To align large language models with human preferences, existing research
either utilizes a separate reward model (RM) to perform on-policy learning or
simplifies the training procedure by discarding the on-policy learning and the
need for a separate RM. In this paper, we present a novel alignment framework,
SELF-JUDGE that is (1) on-policy learning and 2) parameter efficient, as it
does not require an additional RM for evaluating the samples for on-policy
learning. To this end, we propose Judge-augmented Supervised Fine-Tuning (JSFT)
to train a single model acting as both a policy and a judge. Specifically, we
view the pairwise judgment task as a special case of the instruction-following
task, choosing the better response from a response pair. Thus, the resulting
model can judge preferences of on-the-fly responses from current policy
initialized from itself. Experimental results show the efficacy of SELF-JUDGE,
outperforming baselines in preference benchmarks. We also show that
self-rejection with oversampling can improve further without an additional
evaluator. Our code is available at https://github.com/oddqueue/self-judge.
- Abstract(参考訳): 大規模言語モデルと人間の好みを整合させるために、既存の研究は、個別報酬モデル(rm)を使用してオンポリシー学習を行うか、オンポリシー学習と個別のrmの必要性を捨ててトレーニング手順を単純化する。
本稿では,新しいアライメントフレームワークであるSELF-JUDGEについて述べる。
2) パラメータ効率は, オンライン学習のサンプルを評価するための追加のRMを必要としない。
そこで本研究では,政策と裁判官の両方として機能する単一モデルの訓練を行うために,審査強化細管(JSFT)を提案する。
具体的には、ペアの判断タスクを命令追従タスクの特別なケースとみなし、応答対からより良い応答を選択する。
したがって、結果として得られたモデルは、それ自体から初期化された現在のポリシーからのオンザフライ応答の好みを判断することができる。
評価実験の結果,SELF-JUDGEは選好ベンチマークのベースラインを上回った。
また, オーバーサンプリングによる自己拒絶は, 追加評価器を使わずにさらに改善できることを示した。
私たちのコードはhttps://github.com/oddqueue/self-judgeで入手できる。
関連論文リスト
- CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Direct Judgement Preference Optimization [66.83088028268318]
我々は、他のモデルのアウトプットを評価し、批判するために、生成的判断として大きな言語モデル(LLM)を訓練する。
我々は,異なるユースケースに対する選好ペアの収集に3つのアプローチを採用し,それぞれが異なる視点から生成判断を改善することを目的としている。
提案モデルは,位置や長さの偏りなどの固有バイアスに強く対応し,実践者が指定した評価プロトコルに柔軟に適用し,下流ジェネレータモデルを改善する上で有用な言語フィードバックを提供する。
論文 参考訳(メタデータ) (2024-09-23T02:08:20Z) - TSO: Self-Training with Scaled Preference Optimization [14.3799656174528]
我々は、追加の報酬モデルを訓練することなく、自己学習による選好学習を行う、選好最適化のためのフレームワークTSOを提案する。
TSOは、モデル行列を構築し、人間の嗜好応答を取り入れることで、応答の多様性を高める。
実験の結果、TSOは様々なアライメント評価ベンチマークにおいて、既存の主流手法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-31T05:37:01Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Model-Based Simulation for Optimising Smart Reply [3.615981646205045]
スマートリプライ(SR)システムは、応答をタイプする代わりに選択できる一連のリプライをユーザに提示する。
これまでの研究は、反応の集合を明示的に学習するのではなく、主にポストホック化に重点を置いてきた。
そこで本研究では,モデルに基づくシミュレーションを用いて高値応答集合を探索する新しい手法SimSRを提案する。
論文 参考訳(メタデータ) (2023-05-26T12:04:33Z) - Small Changes Make Big Differences: Improving Multi-turn Response
Selection \\in Dialogue Systems via Fine-Grained Contrastive Learning [27.914380392295815]
検索に基づく対話応答選択は、マルチターンコンテキストが与えられた候補集合から適切な応答を求めることを目的としている。
PLMに基づく応答選択タスクのための新しいtextbfFine-textbfGrained textbfContrastive (FGC) 学習法を提案する。
論文 参考訳(メタデータ) (2021-11-19T11:07:07Z) - Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。
提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。
このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T11:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。