論文の概要: Boosting Reward Model with Preference-Conditional Multi-Aspect Synthetic Data Generation
- arxiv url: http://arxiv.org/abs/2407.16008v1
- Date: Mon, 22 Jul 2024 19:21:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 19:25:20.610128
- Title: Boosting Reward Model with Preference-Conditional Multi-Aspect Synthetic Data Generation
- Title(参考訳): 主観的マルチアスペクト合成データ生成を用いたブースティング・リワードモデル
- Authors: Jiaming Shen, Ran Xu, Yennie Jun, Zhen Qin, Tianqi Liu, Carl Yang, Yi Liang, Simon Baumgartner, Michael Bendersky,
- Abstract要約: RMBoostは、新しい合成選好データ生成パラダイムである。
優先ペアが意図的に構築されているため、ラベリングノイズを低減する。
これは4つの異なる報酬モデルのパフォーマンスを大幅に向上させる。
- 参考スコア(独自算出の注目度): 62.9933120822879
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models (RMs) are crucial for aligning large language models (LLMs) with human preferences. They are trained using preference datasets where each example consists of one input prompt, two responses, and a preference label. As curating a high-quality human labeled preference dataset is both time-consuming and expensive, people often rely on existing powerful LLMs for preference label generation. This can potentially introduce noise and impede RM training. In this work, we present RMBoost, a novel synthetic preference data generation paradigm to boost reward model quality. Unlike traditional methods, which generate two responses before obtaining the preference label, RMBoost first generates one response and selects a preference label, followed by generating the second more (or less) preferred response conditioned on the pre-selected preference label and the first response. This approach offers two main advantages. First, RMBoost reduces labeling noise since preference pairs are constructed intentionally. Second, RMBoost facilitates the creation of more diverse responses by incorporating various quality aspects (e.g., helpfulness, relevance, completeness) into the prompts. We conduct extensive experiments across three diverse datasets and demonstrate that RMBoost outperforms other synthetic preference data generation techniques and significantly boosts the performance of four distinct reward models.
- Abstract(参考訳): リワードモデル(RM)は、大きな言語モデル(LLM)と人間の嗜好の整合に不可欠である。
それぞれのサンプルは1つのインプットプロンプト、2つのレスポンス、選好ラベルで構成されている。
高品質なラベル付き嗜好データセットのキュレーションには時間と費用がかかるため、人々はしばしば、選好ラベルの生成に既存の強力なLCMに頼る。
これはノイズを発生させ、RMトレーニングを阻害する可能性がある。
本稿では、報酬モデルの品質を高めるための新しい合成選好データ生成パラダイムRMBoostを提案する。
嗜好ラベルを得る前に2つの応答を生成する従来の方法とは異なり、RMBoostはまず1つの応答を生成して選好ラベルを選択する。
このアプローチには2つの大きな利点があります。
まず、RMBoostは優先ペアが意図的に構築されているため、ラベリングノイズを低減する。
第2に、RMBoostは様々な品質の側面(例えば、助け、妥当性、完全性)をプロンプトに組み込むことで、より多様なレスポンスの作成を容易にする。
我々は3つの多様なデータセットにわたる広範な実験を行い、RMBoostが他の合成選好データ生成技術より優れており、4つの異なる報奨モデルの性能を大幅に向上させることを示した。
関連論文リスト
- Rethinking Diverse Human Preference Learning through Principal Component Analysis [22.123631189289963]
本稿では,二項比較から多種多様な人間の嗜好を抽出する新しいアプローチであるデコンプリート・リワード・モデル(DRM)を紹介する。
我々の重要な洞察は、人間の好みをベクトルとして表現し、主成分分析(PCA)を用いて分析することである。
DRMは、意味のある好みの次元(例えば、有用性、安全性、ユーモア)を効果的に抽出し、追加のトレーニングなしで新規ユーザーに適応する。
論文 参考訳(メタデータ) (2025-02-18T18:55:26Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Acoustic Model Optimization over Multiple Data Sources: Merging and Valuation [13.009945735929445]
本稿では,音声認識分野の課題を解くための新しいパラダイムを提案する。
最初の段階では、完全な音声データの異なるサブセットに基づいて複数の音響モデルを訓練する。
第2段階では、2つの新しいアルゴリズムを用いて高品質な音響モデルを生成する。
論文 参考訳(メタデータ) (2024-10-21T03:48:23Z) - Self-Boosting Large Language Models with Synthetic Preference Data [97.94185115047999]
モデルアライメントのための合成選好データを活用する自己ブースティングパラダイムであるSynPOを紹介する。
4回のSynPOイテレーションの後、Llama3-8BとMistral-7Bは命令追従能力を大幅に強化した。
SynPO は様々なタスクにおける LLM の一般的な性能を改善し、よく認識された Open LLM のリーダーボード上で平均スコアが 3.2 から 5.0 に向上した。
論文 参考訳(メタデータ) (2024-10-09T14:57:31Z) - AEMLO: AutoEncoder-Guided Multi-Label Oversampling [6.255095509216069]
AEMLOは、不均衡なマルチラベルデータに対するAutoEncoder-guided Oversampling技術である。
AEMLOは、既存の最先端手法よりも優れた性能を示し、広範な実証研究を行った。
論文 参考訳(メタデータ) (2024-08-23T14:01:33Z) - Towards Comprehensive Preference Data Collection for Reward Modeling [15.495910034714187]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の好みの調整を容易にする。
そこで本研究では,プロセスを4段階に分解し,好みデータ収集のためのフレームワークを提案する。
この構造的アプローチは、人間の労働への依存を減らしながら、高品質な嗜好の収集を保証する。
論文 参考訳(メタデータ) (2024-06-24T09:40:39Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。