論文の概要: Boosting Reward Model with Preference-Conditional Multi-Aspect Synthetic Data Generation
- arxiv url: http://arxiv.org/abs/2407.16008v1
- Date: Mon, 22 Jul 2024 19:21:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 19:25:20.610128
- Title: Boosting Reward Model with Preference-Conditional Multi-Aspect Synthetic Data Generation
- Title(参考訳): 主観的マルチアスペクト合成データ生成を用いたブースティング・リワードモデル
- Authors: Jiaming Shen, Ran Xu, Yennie Jun, Zhen Qin, Tianqi Liu, Carl Yang, Yi Liang, Simon Baumgartner, Michael Bendersky,
- Abstract要約: RMBoostは、新しい合成選好データ生成パラダイムである。
優先ペアが意図的に構築されているため、ラベリングノイズを低減する。
これは4つの異なる報酬モデルのパフォーマンスを大幅に向上させる。
- 参考スコア(独自算出の注目度): 62.9933120822879
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models (RMs) are crucial for aligning large language models (LLMs) with human preferences. They are trained using preference datasets where each example consists of one input prompt, two responses, and a preference label. As curating a high-quality human labeled preference dataset is both time-consuming and expensive, people often rely on existing powerful LLMs for preference label generation. This can potentially introduce noise and impede RM training. In this work, we present RMBoost, a novel synthetic preference data generation paradigm to boost reward model quality. Unlike traditional methods, which generate two responses before obtaining the preference label, RMBoost first generates one response and selects a preference label, followed by generating the second more (or less) preferred response conditioned on the pre-selected preference label and the first response. This approach offers two main advantages. First, RMBoost reduces labeling noise since preference pairs are constructed intentionally. Second, RMBoost facilitates the creation of more diverse responses by incorporating various quality aspects (e.g., helpfulness, relevance, completeness) into the prompts. We conduct extensive experiments across three diverse datasets and demonstrate that RMBoost outperforms other synthetic preference data generation techniques and significantly boosts the performance of four distinct reward models.
- Abstract(参考訳): リワードモデル(RM)は、大きな言語モデル(LLM)と人間の嗜好の整合に不可欠である。
それぞれのサンプルは1つのインプットプロンプト、2つのレスポンス、選好ラベルで構成されている。
高品質なラベル付き嗜好データセットのキュレーションには時間と費用がかかるため、人々はしばしば、選好ラベルの生成に既存の強力なLCMに頼る。
これはノイズを発生させ、RMトレーニングを阻害する可能性がある。
本稿では、報酬モデルの品質を高めるための新しい合成選好データ生成パラダイムRMBoostを提案する。
嗜好ラベルを得る前に2つの応答を生成する従来の方法とは異なり、RMBoostはまず1つの応答を生成して選好ラベルを選択する。
このアプローチには2つの大きな利点があります。
まず、RMBoostは優先ペアが意図的に構築されているため、ラベリングノイズを低減する。
第2に、RMBoostは様々な品質の側面(例えば、助け、妥当性、完全性)をプロンプトに組み込むことで、より多様なレスポンスの作成を容易にする。
我々は3つの多様なデータセットにわたる広範な実験を行い、RMBoostが他の合成選好データ生成技術より優れており、4つの異なる報奨モデルの性能を大幅に向上させることを示した。
関連論文リスト
- Acoustic Model Optimization over Multiple Data Sources: Merging and Valuation [13.009945735929445]
本稿では,音声認識分野の課題を解くための新しいパラダイムを提案する。
最初の段階では、完全な音声データの異なるサブセットに基づいて複数の音響モデルを訓練する。
第2段階では、2つの新しいアルゴリズムを用いて高品質な音響モデルを生成する。
論文 参考訳(メタデータ) (2024-10-21T03:48:23Z) - Self-Boosting Large Language Models with Synthetic Preference Data [97.94185115047999]
モデルアライメントのための合成選好データを活用する自己ブースティングパラダイムであるSynPOを紹介する。
4回のSynPOイテレーションの後、Llama3-8BとMistral-7Bは命令追従能力を大幅に強化した。
SynPO は様々なタスクにおける LLM の一般的な性能を改善し、よく認識された Open LLM のリーダーボード上で平均スコアが 3.2 から 5.0 に向上した。
論文 参考訳(メタデータ) (2024-10-09T14:57:31Z) - General Preference Modeling with Preference Representations for Aligning Language Models [51.14207112118503]
我々は、複雑な嗜好構造を効率的に捉えるために、応答を潜在空間に埋め込んだ選好表現学習を導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - REAL: Response Embedding-based Alignment for LLMs [1.9513983244114355]
本稿では,最も情報に富む応答ペアの獲得に焦点をあてた,高品質なトレーニングデータセットのサンプリング戦略を提案する。
実験結果から, 異なる応答対を選択することにより, LLMの直列化が促進されることが示唆された。
以上の結果から,LLMアライメントの効率が向上し,アノテータの作業の最大65%が省力化できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-17T22:40:54Z) - AEMLO: AutoEncoder-Guided Multi-Label Oversampling [6.255095509216069]
AEMLOは、不均衡なマルチラベルデータに対するAutoEncoder-guided Oversampling技術である。
AEMLOは、既存の最先端手法よりも優れた性能を示し、広範な実証研究を行った。
論文 参考訳(メタデータ) (2024-08-23T14:01:33Z) - Towards Comprehensive Preference Data Collection for Reward Modeling [15.495910034714187]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の好みの調整を容易にする。
そこで本研究では,プロセスを4段階に分解し,好みデータ収集のためのフレームワークを提案する。
この構造的アプローチは、人間の労働への依存を減らしながら、高品質な嗜好の収集を保証する。
論文 参考訳(メタデータ) (2024-06-24T09:40:39Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。