Fugu-MT 論文翻訳(概要): VickreyFeedback: Cost-efficient Data Construction for Reinforcement Learning from Human Feedback

論文の概要: VickreyFeedback: Cost-efficient Data Construction for Reinforcement Learning from Human Feedback

arxiv url: http://arxiv.org/abs/2409.18417v2
Date: Thu, 12 Dec 2024 06:18:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-13 15:57:55.856958
Title: VickreyFeedback: Cost-efficient Data Construction for Reinforcement Learning from Human Feedback
Title（参考訳）: VickreyFeedback:人間のフィードバックによる強化学習のための費用効率の良いデータ構築
Authors: Guoxi Zhang, Jiuding Duan,
Abstract要約: 本稿では,RLHF(Reinforcement Learning from Human Feedback)の費用対効果について述べる。 RLHFは大規模言語モデル(LLM)の出力よりも人間の好みのデータセットを活用する本稿では,RLHFのコスト効率を高める上で,オークション機構の導入が重要な役割を担っていることを示す。
参考スコア（独自算出の注目度）: 2.07180164747172
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper addresses the cost-efficiency aspect of Reinforcement Learning from Human Feedback (RLHF). RLHF leverages datasets of human preferences over outputs of large language models (LLM)s to instill human expectations into LLMs. Although preference annotation comes with a monetized cost, the economic utility of a preference dataset has not been considered by far. What exacerbates this situation is that, given complex intransitive or cyclic relationships in preference datasets, existing algorithms for fine-tuning LLMs are still far from capturing comprehensive preferences. This raises severe cost-efficiency concerns in production environments, where preference data accumulate over time. In this paper, we discuss the fine-tuning of LLMs as a monetized economy and introduce an auction mechanism to improve the efficiency of preference data collection in dollar terms. We show that introducing an auction mechanism can play an essential role in enhancing the cost-efficiency of RLHF, while maintaining satisfactory model performance. Experimental results demonstrate that our proposed auction-based protocol is cost-effective for fine-tuning LLMs concentrating on high-quality feedback.
Abstract（参考訳）: 本稿では,Reinforcement Learning from Human Feedback (RLHF) の費用対効果について述べる。 RLHFは、大きな言語モデル(LLM)の出力よりも人間の好みのデータセットを活用して、人間の期待をLLMに注入する。選好アノテーションには収益化コストが伴うが、選好データセットの経済的有用性は今のところ考慮されていない。この状況がさらに悪化しているのは、嗜好データセットの複雑な非推移的あるいは循環的関係を考えると、微調整 LLM の既存のアルゴリズムは包括的嗜好を捉えるには程遠いことである。これにより、好みデータが時間とともに蓄積される運用環境において、大幅なコスト効率の懸念が生じる。本稿では, LLMの細調整を収益化経済として論じ, ドル単位の選好データ収集効率を向上させるためのオークション機構を導入する。本稿では,RLHFのコスト効率向上に重要な役割を担いつつ,良好なモデル性能を維持しつつ,オークション機構の導入が重要な役割を担っていることを示す。提案したオークションベースのプロトコルは,高品質なフィードバックに集中した微調整LDMに対して,コスト効率が高いことを示す実験結果を得た。

関連論文リスト

Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay [61.823835392216544]
強化学習(RL)は、大規模言語モデル(LLM)の微調整に有効なアプローチとなっている。 LLM RLファインチューニングにおけるデータ効率向上のための2つの手法を提案する。本手法は,RLの微調整時間を25%から65%削減し,GRPOアルゴリズムと同等の性能を実現する。
論文参考訳（メタデータ） (2025-06-05T17:55:43Z)
ActiveDPO: Active Direct Preference Optimization for Sample-Efficient Alignment [94.36403843133616]
人間の好みを使って大きな言語モデル(LLM)を整列させると、さまざまな下流タスクのパフォーマンスが大幅に向上する。既存の方法には強い理論的な基礎が欠けているか、制限的な報酬関数の仮定に依存している。非線型報酬関数に対して理論的に基底化されたデータ選択基準を用いるアルゴリズムであるActiveDPOを提案する。
論文参考訳（メタデータ） (2025-05-25T17:42:52Z)
Attention Pruning: Automated Fairness Repair of Language Models via Surrogate Simulated Annealing [14.114970711442512]
本稿では,大規模言語モデル (LLM) におけるアテンションヘッドに対するアテンション・プルーニング(Attention Pruning) を提案する。我々の実験は、注意喚起によって最大40%の性別バイアスが減少し、最先端のバイアス緩和戦略よりも優れることを示した。
論文参考訳（メタデータ） (2025-03-20T03:02:32Z)
ALinFiK: Learning to Approximate Linearized Future Influence Kernel for Scalable Third-Parity LLM Data Valuation [11.36712576361739]
大規模言語モデル(LLM)は、高品質なトレーニングデータに大きく依存しているため、モデルパフォーマンスの最適化にデータバリュエーションが不可欠である。個々のデータサンプルの値を評価する線形化後の影響カーネル(LinFiK)を導入する。我々は、LinFiKを近似する学習戦略であるALinFiKを提案し、スケーラブルなデータバリュエーションを実現する。
論文参考訳（メタデータ） (2025-03-02T22:51:12Z)
Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。 Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。 DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文参考訳（メタデータ） (2025-02-08T01:20:09Z)
EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation [58.546205554954454]
臨界観測(EACO)によるMLLMのアライメント向上を提案する。 EACOは、経済的に5k画像のみを使用して、MLLMを自己生成の選好データで整列する。 EACOは幻覚全体の65.6%をHalusionBenchで減らし、MME-Cognitionで21.8%改善する。
論文参考訳（メタデータ） (2024-12-06T09:59:47Z)
Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文参考訳（メタデータ） (2024-10-22T00:11:41Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
Investigating Cost-Efficiency of LLM-Generated Training Data for Conversational Semantic Frame Analysis [18.44272589315175]
高品質で高コストな人的データと、低品質で実質的に安価なLDM生成データとのトレードオフのバランスをとる方法を示す。様々な予算レベルで実施した実験により,人間とLLM生成データを組み合わせた最適コスト効率が得られた。
論文参考訳（メタデータ） (2024-10-09T05:15:13Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文参考訳（メタデータ） (2024-06-18T08:38:59Z)
Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文参考訳（メタデータ） (2024-06-06T18:01:02Z)
Prototypical Reward Network for Data-Efficient RLHF [17.220998116937444]
RLHF(Reinforcement Learning from Human Feedback)の報奨モデルが大規模言語モデル(LLM)の微調整に有効であることが証明された。提案するフレームワークであるProto-RMは,人間からのフィードバックに制限された報酬モデルを改善するために,プロトタイプネットワークを活用している。
論文参考訳（メタデータ） (2024-06-06T15:23:30Z)
ChatGPT Based Data Augmentation for Improved Parameter-Efficient Debiasing of LLMs [65.9625653425636]
大型言語モデル(LLM)は有害な社会的バイアスを示す。そこで本研究では,ChatGPTを用いて合成学習データを生成する手法を提案する。
論文参考訳（メタデータ） (2024-02-19T01:28:48Z)
Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [54.682106515794864]
オフライン強化学習(RL)は、事前コンパイルされたデータセットを使用して、ほぼ最適ポリシーを見つけることを目的としている。本稿では、オフラインRLに事前学習言語モデル(LM)を使用するための決定変換器に基づく一般的なフレームワークである、$textbfMo$tion Control用の$textbfLanguage Models(textbfLaMo$)を紹介する。経験的な結果から、$textbfLaMo$はスパース・リワードタスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-10-31T16:24:17Z)
To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文参考訳（メタデータ） (2023-05-22T17:02:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。