Fugu-MT 論文翻訳(概要): Beyond Scalar Reward Model: Learning Generative Judge from Preference Data

論文の概要: Beyond Scalar Reward Model: Learning Generative Judge from Preference Data

arxiv url: http://arxiv.org/abs/2410.03742v2
Date: Sun, 13 Oct 2024 10:21:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 20:18:28.489530
Title: Beyond Scalar Reward Model: Learning Generative Judge from Preference Data
Title（参考訳）: Scalar Reward Modelを超えて: 推論データから生成的判断を学習する
Authors: Ziyi Ye, Xiangsheng Li, Qiuchi Li, Qingyao Ai, Yujia Zhou, Wei Shen, Dong Yan, Yiqun Liu,
Abstract要約: 嗜好フィードバックから学ぶことは、大きな言語モデル(LLM)を人間の価値と整合させる一般的なプラクティスである。 Scalarモデルは解釈可能性に欠けており、データセットのバイアスの影響を受けやすいことが知られている。本稿では,LLMの生成能力を利用して,両方の制約を1ショットで処理する手法について検討する。
参考スコア（独自算出の注目度）: 26.219896368149236
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning from preference feedback is a common practice for aligning large language models~(LLMs) with human value. Conventionally, preference data is learned and encoded into a scalar reward model that connects a value head with an LLM to produce a scalar score as preference or reward. However, scalar models lack interpretability and are known to be susceptible to biases in datasets. This paper investigates leveraging the generation capability of LLMs to address both limitations in one shot. Specifically, we prompt the pre-trained LLM to generate positive and negative judgments, both supported with rationales in natural language form. The self-generated contrastive judgment pairs are used to train the generative judge with Direct Preference Optimization (DPO). This proposal of training the generative Judge using self-generated Contrastive judgments (Con-J) ensures natural interpretability due to the generated rationales together with the judgments, as well as high robustness against bias without the need for an additional reward head. Experimental results show that the performance of Con-J is comparable to the scalar reward model trained on the same collection of preference data, and demonstrate its superior interpretability and robustness in encoding human preferences.
Abstract（参考訳）: 好みのフィードバックから学ぶことは、大きな言語モデル～(LLM)を人間の価値と整合させる一般的なプラクティスである。従来、選好データを学習して、値ヘッドとLLMを接続するスカラー報酬モデルに符号化し、選好または報奨としてスカラースコアを生成する。しかし、スカラーモデルは解釈可能性に欠けており、データセットのバイアスに影響を受けやすいことが知られている。本稿では,LLMの生成能力を利用して,両方の制約を1ショットで処理する手法について検討する。具体的には, 事前学習したLLMに対して, 肯定的および否定的な判断を誘導し, どちらも自然言語形式の有理性で支持する。自己生成コントラスト判定ペアは、直接選好最適化(DPO)を用いて生成判断を訓練するために使用される。自己生成的コントラスト判断(Con-J)を用いた生成的判断の訓練の提案は、生成的理性による自然な解釈性を判断とともに保証し、付加的な報酬ヘッドを必要とせずにバイアスに対する高い堅牢性を確保する。実験結果から、Con-Jの性能は、同一の嗜好データに基づいて訓練されたスカラー報酬モデルに匹敵し、人間の嗜好の符号化において、その優れた解釈性と堅牢性を示すことが示された。

関連論文リスト

SimGR: Escaping the Pitfalls of Generative Decoding in LLM-based Recommendation [68.00727783181289]
推薦システムの中核的な目的は、パーソナライズされたレコメンデーションを可能にするために、アイテムよりもユーザの好みの分布を正確にモデル化することである。アイテムレベルの嗜好分布を推定する際に,既存の手法が必然的に系統的バイアスを生じさせることを観察する。 textbfSimply textbfGenerative textbfRecommendation (textbfSimGR)を提案する。
論文参考訳（メタデータ） (2026-02-08T07:26:52Z)
SparseRM: A Lightweight Preference Modeling with Sparse Autoencoder [54.31950189922548]
リワードモデル(Reward Model、RM)は、人間の嗜好評価と誘導モデルアライメントのためのプロキシである。 Sparse Autoencoder (SAE) を利用してモデル表現に符号化された嗜好関連情報を抽出するSparseRMを提案する。 SparseRMは、トレーニング可能なパラメータの1%未満を使用しながら、ほとんどのメインストリームのRMよりも優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-11-11T06:51:56Z)
Intuitionistic Fuzzy Sets for Large Language Model Data Annotation: A Novel Approach to Side-by-Side Preference Labeling [0.0]
本稿では,多言語モデル(LLM)における人間の嗜好をモデル化・集約するための直観的ファジィ集合(IFS)に基づく新しい枠組みを提案する。我々のアプローチは、選好の度合いだけでなく、メンバーシップ、非メンバーシップ、およびヒューイテーションの度合いを通じて、人間の判断に固有の不確実性や偏見も捉えている。複数のデータセットに対する実験的検証は、我々のIFSベースのアプローチがアノテーションの一貫性を大幅に改善し、アノテータの疲労を低減し、高品質な嗜好データを生成することを示した。
論文参考訳（メタデータ） (2025-05-30T04:20:00Z)
Learning from Reference Answers: Versatile Language Model Alignment without Binary Human Preference Data [56.72693923645586]
RefAlignはReINFORCEスタイルのアライメントアルゴリズムで、参照モデルと報酬モデルがない。タスク関連の目的と類似性報酬を組み込むことで、安全性や信頼性の整合性といった多様なシナリオに容易に拡張できる。
論文参考訳（メタデータ） (2025-04-14T05:43:21Z)
Improving Preference Extraction In LLMs By Identifying Latent Knowledge Through Classifying Probes [20.20764453136706]
大規模言語モデル(LLM)は、しばしばテキストを評価するために自動判断器として使用される。本稿では,2つのプロンプト間の差異を利用して学習した線形分類プローブを用いて,潜在知識にアクセスし,より正確な選好を抽出する手法を提案する。
論文参考訳（メタデータ） (2025-03-22T12:35:25Z)
From Captions to Rewards (CAREVL): Leveraging Large Language Model Experts for Enhanced Reward Modeling in Large Vision-Language Models [58.16075709485292]
CAREVLは、高信頼データと低信頼データの両方を確実に利用することにより、嗜好報酬モデリングの新しい手法である。 CAREVL は VL-RewardBench と MLLM-as-a-Judge ベンチマークで従来の蒸留法よりも性能が向上した。
論文参考訳（メタデータ） (2025-03-08T16:13:18Z)
IPO: Your Language Model is Secretly a Preference Classifier [1.8921784053120494]
人からのフィードバックから強化学習(RLHF)が,大規模言語モデルと人間の嗜好を整合させる主要な手法として登場した。本稿では、生成言語モデルを選好分類器として活用する代替手法として、Implicit Preference Optimization (IPO)を提案する。この結果から、IPOを通じてトレーニングされたモデルは、最先端の報酬モデルを使って好みを得られるモデルに匹敵するパフォーマンスを達成できることがわかった。
論文参考訳（メタデータ） (2025-02-22T10:59:11Z)
Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文参考訳（メタデータ） (2024-10-24T20:04:15Z)
CREAM: Consistency Regularized Self-Rewarding Language Models [34.325289477993586]
自己回帰型大規模言語モデル (LLM) は, 優先データに対する人間のアノテーションを必要とせずに, LLM-as-a-Judge を用いてアライメント性能を向上させることに成功した。しかし、報酬とランキングの正確性は保証されていないため、精度の高い報酬と高品質な選好データを保証するのに不可欠である。本稿では,各イテレーション間の報酬整合性を利用して自己回帰訓練を規則化する一貫性正規化sElf-rewarding lAnguage Model (CREAM)を提案する。
論文参考訳（メタデータ） (2024-10-16T16:51:01Z)
General Preference Modeling with Preference Representations for Aligning Language Models [51.14207112118503]
我々は、複雑な嗜好構造を効率的に捉えるために、応答を潜在空間に埋め込んだ選好表現学習を導入する。また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文参考訳（メタデータ） (2024-10-03T04:22:55Z)
Direct Judgement Preference Optimization [66.83088028268318]
我々は、他のモデルのアウトプットを評価し、批判するために、生成的判断として大きな言語モデル(LLM)を訓練する。我々は,異なるユースケースに対する選好ペアの収集に3つのアプローチを採用し,それぞれが異なる視点から生成判断を改善することを目的としている。提案モデルは,位置や長さの偏りなどの固有バイアスに強く対応し,実践者が指定した評価プロトコルに柔軟に適用し,下流ジェネレータモデルを改善する上で有用な言語フィードバックを提供する。
論文参考訳（メタデータ） (2024-09-23T02:08:20Z)
Fairer Preferences Elicit Improved Human-Aligned Large Language Model Judgments [41.25558612970942]
大規模言語モデル (LLMs) が優先バイアスを示し, 設計に敏感であることを示す。この現象に触発された自動ゼロショット評価指向のプロンプト最適化フレームワークZEPOを提案する。
論文参考訳（メタデータ） (2024-06-17T09:48:53Z)
Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文参考訳（メタデータ） (2024-06-06T18:01:02Z)
Aligning Large Language Models via Fine-grained Supervision [20.35000061196631]
事前訓練された大規模言語モデル(LLM)は、一貫性のある記事を生成するのに優れていますが、そのアウトプットは非現実的、有毒、あるいはユーザの期待に沿わないかもしれません。現在のアプローチは、モデルアライメントを改善するために、人間のフィードバックによる強化学習を使うことに重点を置いている。トークンレベルの微粒化によるLCMアライメント向上手法を提案する。
論文参考訳（メタデータ） (2024-06-04T20:21:45Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Large Language Models are Biased Reinforcement Learners [0.0]
大規模言語モデル (LLM) は相対値バイアスの行動的シグネチャを示す。計算的認知モデリングにより、LLMの挙動は単純なRLアルゴリズムによってよく記述されていることが明らかになった。
論文参考訳（メタデータ） (2024-05-19T01:43:52Z)
Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文参考訳（メタデータ） (2024-03-31T02:05:40Z)
Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文参考訳（メタデータ） (2024-01-11T17:56:59Z)
Guide the Learner: Controlling Product of Experts Debiasing Method Based on Token Attribution Similarities [17.082695183953486]
一般的な回避策は、二次バイアスモデルに基づいてトレーニング例を再重み付けすることで、堅牢なモデルをトレーニングすることである。ここでは、バイアスドモデルが機能をショートカットする、という前提がある。本稿では,主要モデルと偏りのあるモデル属性スコアの類似性を,プロダクト・オブ・エキスパートズ・ロス関数に組み込んだ微調整戦略を提案する。
論文参考訳（メタデータ） (2023-02-06T15:21:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。