Fugu-MT 論文翻訳(概要): Aligning Large Language Models by On-Policy Self-Judgment

論文の概要: Aligning Large Language Models by On-Policy Self-Judgment

arxiv url: http://arxiv.org/abs/2402.11253v2
Date: Sun, 3 Mar 2024 21:37:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 00:12:00.362487
Title: Aligning Large Language Models by On-Policy Self-Judgment
Title（参考訳）: オンライン自己判断による大規模言語モデルの調整
Authors: Sangkyu Lee, Sungdong Kim, Ashkan Yousefpour, Minjoon Seo, Kang Min Yoo, Youngjae Yu
Abstract要約: 大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。本稿では,オンライン学習を行い,パラメータ効率の高いアライメントフレームワーク,メソッドを提案する。また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
参考スコア（独自算出の注目度）: 52.25915009010184
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Existing approaches for aligning large language models with human preferences face a trade-off that requires a separate reward model (RM) for on-policy learning. In this paper, we present a novel alignment framework, \method{} that (1) does on-policy learning and 2) is parameter efficient, as it does not require an additional RM for evaluating the samples for on-policy learning. To this end, we propose Judge-augmented Supervised Fine-Tuning (JSFT) to train a single model to act as both a policy and a judge. Specifically, we view the pairwise judgment task, choosing the better response from a response pair, as a special case of the instruction-following task. The resulting model can judge preferences of on-the-fly responses from current policy initialized from itself. Experimental results show the efficacy of \method{}, outperforming baselines in preference benchmarks. We also show that the rejecting sampling by itself can improve performance further without an additional evaluator.
Abstract（参考訳）: 大規模言語モデルと人間の好みを整合させるための既存のアプローチは、オンポリシー学習に別個の報酬モデル(rm)を必要とするトレードオフに直面している。本稿では,(1)オンポリシー学習を行うための新しいアライメントフレームワークである \method{} を提案する。 2) パラメータ効率は高く, オンポリシー学習のためのサンプル評価のための追加のrmは不要である。そこで本研究では,単一モデルを政策と裁判官の両方として機能させるために,審査強化細管(JSFT)を提案する。具体的には、命令追従タスクの特別な場合として、応答ペアからより良い応答を選択するペアワイズ判断タスクを見る。結果として得られるモデルは、オンザフライ応答の好みを、それ自体から初期化された現在のポリシーから判断することができる。実験結果から,プレファレンスベンチマークのベースラインを上回って,<method{}の有効性が示された。また,リジェクションサンプリング自体が,追加評価器を使わずにさらに性能を向上させることができることを示した。

関連論文リスト

A Mathematical Framework for Custom Reward Functions in Job Application Evaluation using Reinforcement Learning [0.8709142317087694]
本稿では,小言語モデルに基づくより洗練された履歴書評価モデルを構築するための2段階のプロセスについて述べる。このモデルはカスタム報酬関数上でGRPOを使用して微調整される。その結果, GRPO分析モデルでは実世界の有効性が顕著に示され, 最終精度は91%であった。
論文参考訳（メタデータ） (2025-11-20T06:06:30Z)
Mitigating Judgment Preference Bias in Large Language Models through Group-Based Polling [26.377421806098187]
自動評価器としての大規模言語モデル(LLM)が注目されている。 LLMは自分自身が生み出す反応を好む傾向があり、判断の信頼性を損なう。本稿では,教師なしマルチエージェント協調最適化フレームワークであるグループベースポーリング最適化(Genii)を紹介する。
論文参考訳（メタデータ） (2025-10-09T12:32:31Z)
Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。 GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文参考訳（メタデータ） (2025-08-27T06:51:48Z)
CPO: Addressing Reward Ambiguity in Role-playing Dialogue via Comparative Policy Optimization [53.79487826635141]
RLFT(Reinforcement Learning Fine-Tuning)は、客観的に検証された回答を持つタスクにおいて顕著な成功を収めた。しかし、ロールプレイング・ダイアログのようなオープンな主観的なタスクに苦しむ。独立したサンプル単位のスコアリングに依存する従来の報酬モデリングアプローチでは、主観的評価基準と不安定な報酬信号という2つの課題に直面している。人間の評価は、明示的な基準と暗黙的な比較判断を本質的に組み合わせているという知見に触発され、比較政策最適化を提案する。
論文参考訳（メタデータ） (2025-08-12T16:49:18Z)
J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization [69.23273504123941]
私たちは、より複雑な評価設定で生じる位置バイアスに対して堅牢であるように、裁判官を訓練します。我々はReasoningJudgeBenchというベンチマークを紹介します。 EIS-GRPOで訓練を受けた7B判事であるReasoning判事(J4R)は、GPT-4oを6.7%、そして9%で上回ります。
論文参考訳（メタデータ） (2025-05-19T16:50:35Z)
J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning [54.85131761693927]
意思決定前にLLM審査員に思考を教えるための強化学習フレームワークであるJ1を紹介する。私たちのコアコントリビューションは、検証不可能で検証可能なプロンプトのすべての判断タスクを、検証可能な報酬を持った統一フォーマットに変換することです。次に、RLを用いて8B、32B、70Bのスケールで思考判断を訓練し、彼らが最先端のパフォーマンスを得ることを示す。
論文参考訳（メタデータ） (2025-05-15T14:05:15Z)
DAFE: LLM-Based Evaluation Through Dynamic Arbitration for Free-Form Question-Answering [12.879551933541345]
大規模言語モデル評価のための動的アロケーションフレームワーク(DAFE)を提案する。 DAFEは2つの主要なLCM-as-judgesを採用し、不一致の場合のみ第3の仲裁を行う。 DAFEが一貫した、スケーラブルで、リソース効率の高いアセスメントを提供する能力を示す。
論文参考訳（メタデータ） (2025-03-11T15:29:55Z)
HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。 HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文参考訳（メタデータ） (2024-12-20T03:26:47Z)
A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文参考訳（メタデータ） (2024-12-18T15:38:39Z)
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。 CompassJudger-1は、優れた汎用性を示す汎用LLMである。 textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文参考訳（メタデータ） (2024-10-21T17:56:51Z)
Language Model Preference Evaluation with Multiple Weak Evaluators [89.90733463933431]
PGEDは,複数のモデルに基づく評価器を用いて嗜好グラフを構築し,非循環的非競合性評価結果に対してこれらのグラフをアンサンブルし,デノテーズする手法である。 1)評価のためのモデルランキング、2)テスト時間スケーリングのための応答選択、3)モデル微調整のためのデータ選択である。
論文参考訳（メタデータ） (2024-10-14T01:57:25Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
Direct Judgement Preference Optimization [66.83088028268318]
我々は、他のモデルのアウトプットを評価し、批判するために、生成的判断として大きな言語モデル(LLM)を訓練する。我々は,異なるユースケースに対する選好ペアの収集に3つのアプローチを採用し,それぞれが異なる視点から生成判断を改善することを目的としている。提案モデルは,位置や長さの偏りなどの固有バイアスに強く対応し,実践者が指定した評価プロトコルに柔軟に適用し,下流ジェネレータモデルを改善する上で有用な言語フィードバックを提供する。
論文参考訳（メタデータ） (2024-09-23T02:08:20Z)
TSO: Self-Training with Scaled Preference Optimization [14.3799656174528]
我々は、追加の報酬モデルを訓練することなく、自己学習による選好学習を行う、選好最適化のためのフレームワークTSOを提案する。 TSOは、モデル行列を構築し、人間の嗜好応答を取り入れることで、応答の多様性を高める。実験の結果、TSOは様々なアライメント評価ベンチマークにおいて、既存の主流手法よりも優れていた。
論文参考訳（メタデータ） (2024-08-31T05:37:01Z)
Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文参考訳（メタデータ） (2024-01-11T17:56:59Z)
SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文参考訳（メタデータ） (2023-10-09T17:56:53Z)
Model-Based Simulation for Optimising Smart Reply [3.615981646205045]
スマートリプライ(SR)システムは、応答をタイプする代わりに選択できる一連のリプライをユーザに提示する。これまでの研究は、反応の集合を明示的に学習するのではなく、主にポストホック化に重点を置いてきた。そこで本研究では,モデルに基づくシミュレーションを用いて高値応答集合を探索する新しい手法SimSRを提案する。
論文参考訳（メタデータ） (2023-05-26T12:04:33Z)
Small Changes Make Big Differences: Improving Multi-turn Response Selection \\in Dialogue Systems via Fine-Grained Contrastive Learning [27.914380392295815]
検索に基づく対話応答選択は、マルチターンコンテキストが与えられた候補集合から適切な応答を求めることを目的としている。 PLMに基づく応答選択タスクのための新しいtextbfFine-textbfGrained textbfContrastive (FGC) 学習法を提案する。
論文参考訳（メタデータ） (2021-11-19T11:07:07Z)
Self-Supervised Reinforcement Learning for Recommender Systems [77.38665506495553]
逐次リコメンデーションタスクのための自己指導型強化学習を提案する。提案手法は,2つの出力層を持つ標準レコメンデーションモデルを強化する。このようなアプローチに基づいて、自己監督型Q-ラーニング(SQN)と自己監督型アクター・クライブ(SAC)という2つのフレームワークを提案する。
論文参考訳（メタデータ） (2020-06-10T11:18:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。