論文の概要: VickreyFeedback: Cost-efficient Data Construction for Reinforcement Learning from Human Feedback
- arxiv url: http://arxiv.org/abs/2409.18417v1
- Date: Fri, 27 Sep 2024 03:15:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 06:31:22.303513
- Title: VickreyFeedback: Cost-efficient Data Construction for Reinforcement Learning from Human Feedback
- Title(参考訳): VickreyFeedback:人間のフィードバックによる強化学習のための費用効率の良いデータ構築
- Authors: Guoxi Zhang, Jiuding Duan,
- Abstract要約: 本稿では,RLHF(Reinforcement Learning from Human Feedback)の費用対効果について述べる。
RLHFは、大きな言語モデル(LLM)の出力よりも人間の好みのデータセットを活用して、人間の期待をLLMに注入する。
提案手法の導入は, 良好なモデル性能を維持しつつ, RLHFのコスト効率を高める上で重要な役割を担っていることを示す。
- 参考スコア(独自算出の注目度): 2.07180164747172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the cost-efficiency aspect of Reinforcement Learning from Human Feedback (RLHF). RLHF leverages datasets of human preferences over outputs of large language models (LLM) to instill human expectations into LLMs. While preference annotation comes with a monetized cost, the economic utility of a preference dataset has not been considered by far. What exacerbates this situation is that given complex intransitive or cyclic relationships in preference datasets, existing algorithms for fine-tuning LLMs are still far from capturing comprehensive preferences. This raises severe cost-efficiency concerns in production environments, where preference data accumulate over time. In this paper, we see the fine-tuning of LLMs as a monetized economy and introduce an auction mechanism to improve the efficiency of the preference data collection in dollar terms. We show that introducing an auction mechanism can play an essential role in enhancing the cost-efficiency of RLHF while maintaining satisfactory model performance. Experimental results demonstrate that our proposed auction-based protocol is cost-efficient for fine-tuning LLMs by concentrating on high-quality feedback.
- Abstract(参考訳): 本稿では,Reinforcement Learning from Human Feedback (RLHF) の費用対効果について述べる。
RLHFは、大きな言語モデル(LLM)の出力よりも人間の好みのデータセットを活用して、人間の期待をLLMに注入する。
選好アノテーションには収益化コストが伴うが、選好データセットの経済的有用性は今のところ考慮されていない。
この状況がさらに悪化しているのは、嗜好データセットの複雑な非推移的あるいは循環的関係を考えると、微調整 LLM の既存のアルゴリズムは包括的嗜好を捉えるには程遠いことである。
これにより、好みデータが時間とともに蓄積される運用環境において、大幅なコスト効率の懸念が生じる。
本稿では, LLM の細調整を収益化経済と捉え, ドル単位の選好データ収集効率を向上させるためのオークション機構を導入する。
提案手法の導入は, 良好なモデル性能を維持しつつ, RLHFのコスト効率を高める上で重要な役割を担っていることを示す。
提案したオークションベースのプロトコルは,高品質なフィードバックに集中することで,微調整 LLM のコスト効率が向上することを示した。
関連論文リスト
- Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。
収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文 参考訳(メタデータ) (2024-10-22T00:11:41Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Investigating Cost-Efficiency of LLM-Generated Training Data for Conversational Semantic Frame Analysis [18.44272589315175]
高品質で高コストな人的データと、低品質で実質的に安価なLDM生成データとのトレードオフのバランスをとる方法を示す。
様々な予算レベルで実施した実験により,人間とLLM生成データを組み合わせた最適コスト効率が得られた。
論文 参考訳(メタデータ) (2024-10-09T05:15:13Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Prototypical Reward Network for Data-Efficient RLHF [17.220998116937444]
RLHF(Reinforcement Learning from Human Feedback)の報奨モデルが大規模言語モデル(LLM)の微調整に有効であることが証明された。
提案するフレームワークであるProto-RMは,人間からのフィードバックに制限された報酬モデルを改善するために,プロトタイプネットワークを活用している。
論文 参考訳(メタデータ) (2024-06-06T15:23:30Z) - ChatGPT Based Data Augmentation for Improved Parameter-Efficient Debiasing of LLMs [65.9625653425636]
大型言語モデル(LLM)は有害な社会的バイアスを示す。
そこで本研究では,ChatGPTを用いて合成学習データを生成する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T01:28:48Z) - Unleashing the Power of Pre-trained Language Models for Offline
Reinforcement Learning [54.682106515794864]
オフライン強化学習(RL)は、事前コンパイルされたデータセットを使用して、ほぼ最適ポリシーを見つけることを目的としている。
本稿では、オフラインRLに事前学習言語モデル(LM)を使用するための決定変換器に基づく一般的なフレームワークである、$textbfMo$tion Control用の$textbfLanguage Models(textbfLaMo$)を紹介する。
経験的な結果から、$textbfLaMo$はスパース・リワードタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。