Fugu-MT 論文翻訳(概要): Towards Comprehensive Preference Data Collection for Reward Modeling

論文の概要: Towards Comprehensive Preference Data Collection for Reward Modeling

arxiv url: http://arxiv.org/abs/2406.16486v1
Date: Mon, 24 Jun 2024 09:40:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-25 15:24:04.678072
Title: Towards Comprehensive Preference Data Collection for Reward Modeling
Title（参考訳）: リワードモデリングのための包括的選好データ収集に向けて
Authors: Yulan Hu, Qingyang Li, Sheng Ouyang, Ge Chen, Kaihui Chen, Lijun Mei, Xucheng Ye, Fuzheng Zhang, Yong Liu,
Abstract要約: Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の好みの調整を容易にする。そこで本研究では,プロセスを4段階に分解し,好みデータ収集のためのフレームワークを提案する。この構造的アプローチは、人間の労働への依存を減らしながら、高品質な嗜好の収集を保証する。
参考スコア（独自算出の注目度）: 15.495910034714187
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Reinforcement Learning from Human Feedback (RLHF) facilitates the alignment of large language models (LLMs) with human preferences, thereby enhancing the quality of responses generated. A critical component of RLHF is the reward model, which is trained on preference data and outputs a scalar reward during the inference stage. However, the collection of preference data still lacks thorough investigation. Recent studies indicate that preference data is collected either by AI or humans, where chosen and rejected instances are identified among pairwise responses. We question whether this process effectively filters out noise and ensures sufficient diversity in collected data. To address these concerns, for the first time, we propose a comprehensive framework for preference data collection, decomposing the process into four incremental steps: Prompt Generation, Response Generation, Response Filtering, and Human Labeling. This structured approach ensures the collection of high-quality preferences while reducing reliance on human labor. We conducted comprehensive experiments based on the data collected at different stages, demonstrating the effectiveness of the proposed data collection method.
Abstract（参考訳）: Reinforcement Learning from Human Feedback (RLHF)は、大規模言語モデル(LLM)と人間の嗜好との整合を促進し、それによって生成された応答の質を高める。 RLHFの重要な構成要素は報酬モデルであり、それは嗜好データに基づいて訓練され、推論段階でスカラー報酬を出力する。しかし、選好データの収集は依然として徹底的な調査を欠いている。近年の研究では、選好データはAIか人間によって収集され、選択されたインスタンスと拒否されたインスタンスがペアの応答で識別されていることが示されている。このプロセスがノイズを効果的に除去し、収集したデータの十分な多様性を保証するかどうかを問う。これらの懸念に対処するために、我々は初めて、プロセスを4つの段階に分解する、選好データ収集のための包括的なフレームワークを提案する。この構造的アプローチは、人間の労働への依存を減らしながら、高品質な嗜好の収集を保証する。提案手法の有効性を実証し,異なる段階で収集したデータに基づいて総合的な実験を行った。

関連論文リスト

Difficulty-Based Preference Data Selection by DPO Implicit Reward Gap [13.89078939095465]
本稿では,DPOの暗黙的な報酬機構を基盤とした,嗜好データセットの難易度に基づく新たなデータ選択手法を提案する。このアプローチは、複数のデータセットとアライメントタスクで、5つの強力なベースラインを一貫して上回ります。
論文参考訳（メタデータ） (2025-08-06T07:24:14Z)
ProDS: Preference-oriented Data Selection for Instruction Tuning [16.416482636797504]
本稿では,ターゲットセットで観測された嗜好と整合性に基づいてトレーニングサンプルをスコアリングするPreference-oriented Data Selection法(ProDS)を提案する。私たちの重要なイノベーションは、データ選択の基準を、単に正確なレスポンス生成のための機能を見積もることから、トレーニングサンプルを目標タスクにおける人間の好みと明示的に整合させることにシフトすることにあります。
論文参考訳（メタデータ） (2025-05-19T06:28:14Z)
More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment [80.04449725137177]
直接選好最適化(DPO)は、人間のフィードバックによる強化学習の、シンプルで効果的な代替手段として登場した。我々の研究は、DPOアライメントに関連する、目覚ましい、安全性に特有な現象を明らかにした。選択されたペアと拒否されたペアに対してのみ自己生成されたレスポンスを使用することで、より強力なモデルからのレスポンスを含む構成を大幅に上回る。
論文参考訳（メタデータ） (2025-04-03T00:36:40Z)
Add-One-In: Incremental Sample Selection for Large Language Models via a Choice-Based Greedy Paradigm [41.4789135538612]
本稿では,各サンプルの品質評価から,各サンプルのコントリビューション値の比較に焦点を移す,新しい選択型サンプル選択フレームワークを提案する。 LLM(Large Language Models)の高度な言語理解機能により,LLMを用いて選択過程における各オプションの価値を評価する。
論文参考訳（メタデータ） (2025-03-04T07:32:41Z)
Finding the Sweet Spot: Preference Data Construction for Scaling Preference Optimization [66.67988187816185]
本研究の目的は、繰り返しランダムサンプリングにより、オンラインサンプルの数を増大させ、アライメント性能を向上させることである。実験の結果,サンプルサイズが大きくなるにつれて,この戦略がエフェデクリンの性能向上につながることが明らかとなった。サンプルの規模が大きくなるにつれてモデル性能を継続的に向上するスケーラブルな嗜好データ構築戦略を導入する。
論文参考訳（メタデータ） (2025-02-24T04:22:57Z)
A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-15T03:00:58Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
Towards Data-Centric RLHF: Simple Metrics for Preference Dataset Comparison [9.324894567200582]
選好データセットを、スケール、ラベルノイズ、情報内容の3つの視点で体系的に研究する。我々の研究は、RLHFのトレーニング効率と反復的なデータ収集を支援する視点を提供することで、アライメントに対するデータ中心のアプローチに向けた第一歩です。
論文参考訳（メタデータ） (2024-09-15T03:55:03Z)
Take the essence and discard the dross: A Rethinking on Data Selection for Fine-Tuning Large Language Models [36.22392593103493]
微調整された大規模言語モデル(LLM)のデータ選択は、既存のデータセットから高品質なサブセットを選択することを目的としている。既存の調査では、微調整フェーズの詳細な調査を見落としている。特徴抽出, 基準設計, セレクタ評価を含む新しい3段階の手法を導入し, これらの手法を体系的に分類し, 評価する。
論文参考訳（メタデータ） (2024-06-20T08:58:58Z)
Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文参考訳（メタデータ） (2024-06-06T18:01:02Z)
How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。 Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文参考訳（メタデータ） (2024-02-15T02:27:57Z)
Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文参考訳（メタデータ） (2024-01-11T17:56:59Z)
Batch Reinforcement Learning from Crowds [24.717084423091865]
バッチ強化学習の欠点は、データに対する報酬の要求である。行動クローンのような報酬の欠如に関する既存の設定は、人間から集めた最適なデモンストレーションに依存している。本論文は、選好から報酬関数を学習することで、バッチ強化学習環境における報酬の欠如に対処する。
論文参考訳（メタデータ） (2021-11-08T05:46:33Z)
Improving Multi-Turn Response Selection Models with Complementary Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。 2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文参考訳（メタデータ） (2020-02-18T06:29:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。