論文の概要: Crowd-SFT: Crowdsourcing for LLM Alignment
- arxiv url: http://arxiv.org/abs/2506.04063v1
- Date: Wed, 04 Jun 2025 15:26:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.417264
- Title: Crowd-SFT: Crowdsourcing for LLM Alignment
- Title(参考訳): Crowd-SFT: LLMアライメントのためのクラウドソーシング
- Authors: Alex Sotiropoulos, Sulyab Thottungal Valapu, Linus Lei, Jared Coleman, Bhaskar Krishnamachari,
- Abstract要約: 大規模言語モデル(LLM)は、監視された微調整(SFT)と人間フィードバックからの強化学習(RLHF)にますます依存している。
我々は,大規模なアノテータトレーニングを必要とせず,より広範なフィードバック収集を可能にする,クラウドソースのファインチューニングフレームワークを提案する。
本フレームワークは,Shapley値と相関するポイントベース報酬システムを通じてインセンティブフェアネスを促進し,反復モデル更新によるモデル収束を導出する。
- 参考スコア(独自算出の注目度): 4.648677931378919
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) increasingly rely on Supervised Fine-Tuning (SFT) and Reinforcement Learning from Human Feedback (RLHF) to align model responses with human preferences. While RLHF employs a reinforcement learning approach with a separate reward model, SFT uses human-curated datasets for supervised learning. Both approaches traditionally depend on small, vetted groups of annotators, making them costly, prone to bias, and limited in scalability. We propose an open, crowd-sourced fine-tuning framework that addresses these limitations by enabling broader feedback collection for SFT without extensive annotator training. Our framework promotes incentive fairness via a point-based reward system correlated with Shapley values and guides model convergence through iterative model updates. Our multi-model selection framework demonstrates up to a 55% reduction in target distance over single-model selection, enabling subsequent experiments that validate our point-based reward mechanism's close alignment with Shapley values (a well-established method for attributing individual contributions) thereby supporting fair and scalable participation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、モデル応答を人間の好みに合わせるために、監視された微調整(SFT)と人間フィードバックからの強化学習(RLHF)にますます依存している。
RLHFは、個別の報酬モデルを持つ強化学習アプローチを採用するが、SFTは、教師付き学習に人間計算データセットを使用する。
どちらのアプローチも伝統的に小さな、検証されたアノテータのグループに依存しており、コストがかかり、バイアスがかかり、スケーラビリティが制限される。
我々は,これらの制約に対処し,広範囲なアノテータトレーニングを伴わずに,より広範なSFTフィードバック収集を可能にする,オープンでクラウドソースな微調整フレームワークを提案する。
本フレームワークは,Shapley値と相関するポイントベース報酬システムを通じてインセンティブフェアネスを促進し,反復モデル更新によるモデル収束を導出する。
提案するマルチモデル選択フレームワークは,単一モデル選択よりも目標距離を最大55%削減できることを示す。
関連論文リスト
- Disentangling Length Bias In Preference Learning Via Response-Conditioned Modeling [87.17041933863041]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)の整合化に成功している。
我々は、長さバイアス軽減と長さ指示に従うモデルの性能を高めるために、$textbfR$esponse-$textbfc$onditioned $textbfB$radley-$textbfT$erry (Rc-BT)モデルを導入する。
また、報酬モデルと直接ポリシー最適化のためにRc-BTモデルを利用するRc-RMおよびRc-DPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-02T14:50:25Z) - Quantile Regression for Distributional Reward Models in RLHF [1.8130068086063336]
我々は,1つのスカラー値の代わりに報酬よりも分布を学習する,報酬モデリングの新しいアプローチであるQuantile Reward Models(QRMs)を紹介する。
提案手法は量子レグレッションを用いて、選好よりも完全な、潜在的に多モード分布を推定し、より強力でニュアンスな選好表現を提供する。
実験の結果,QRMはRewardBench上での従来の点推定モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-09-16T10:54:04Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - FedAA: A Reinforcement Learning Perspective on Adaptive Aggregation for Fair and Robust Federated Learning [5.622065847054885]
Federated Learning (FL)は、分散デバイス間でのプライバシ保護モデルトレーニングのための有望なアプローチとして登場した。
我々はtextbfAdaptive textbfAggregation を通じてクライアントのコントリビューションを最適化する textbfFedAA という新しい手法を導入し、悪意のあるクライアントに対するモデルロバスト性を高める。
論文 参考訳(メタデータ) (2024-02-08T10:22:12Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。