論文の概要: DMoERM: Recipes of Mixture-of-Experts for Effective Reward Modeling
- arxiv url: http://arxiv.org/abs/2403.01197v1
- Date: Sat, 2 Mar 2024 12:31:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 14:48:18.225131
- Title: DMoERM: Recipes of Mixture-of-Experts for Effective Reward Modeling
- Title(参考訳): DMoERM:効果的なリワードモデリングのためのMixture-of-Expertsの準備
- Authors: Shanghaoran Quan
- Abstract要約: 我々は、Mixture-of-Experts(MoE)のアイデアを、報酬モデル(RM)トレーニングの分野に導入する。
特定のタスクを複数の機能ディメンションに分解し、それぞれにLoRA専門家を個別に微調整する。
我々のモデルは、人間の嗜好との整合性に優れ、先進的な生成アプローチを実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of the reward model (RM) is a critical factor in improving
the effectiveness of the large language model (LLM) during alignment
fine-tuning. There remain two challenges in RM training: 1) training the same
RM using various categories of data may cause its generalization performance to
suffer from multi-task disturbance, and 2) the human annotation consistency
rate is generally only $60\%$ to $75\%$, causing training data to contain a lot
of noise. To tackle these two challenges, we introduced the idea of
Mixture-of-Experts (MoE) into the field of RM for the first time. We propose
the Double-Layer MoE RM (DMoERM). The outer layer MoE is a sparse model. After
classifying an input into task categories, we route it to the corresponding
inner layer task-specific model. The inner layer MoE is a dense model. We
decompose the specific task into multiple capability dimensions and
individually fine-tune a LoRA expert on each one. Their outputs are then
synthesized by an MLP to compute the final rewards. To minimize costs, we call
a public LLM API to obtain the capability preference labels. The validation on
manually labeled datasets confirms that our model attains superior consistency
with human preference and outstrips advanced generative approaches. Meanwhile,
through BoN sampling and RL experiments, we demonstrate that our model
outperforms state-of-the-art ensemble methods of RM and mitigates the
overoptimization problem. Our code and dataset are available at:
https://github.com/quanshr/DMoERM-v1.
- Abstract(参考訳): 報奨モデル(RM)の性能は,アライメント微調整時の大規模言語モデル(LLM)の有効性を向上させる上で重要な要素である。
RMトレーニングには2つの課題がある。
1) 様々なカテゴリのデータを用いた同じrmのトレーニングは、その一般化性能をマルチタスク障害に苦しめる可能性がある。
2) 人間のアノテーションの一貫性率は一般的に60\%$から75\%$であり、トレーニングデータには多くのノイズが含まれている。
これら2つの課題に取り組むため,我々は初めてmixed-of-experts (moe) のアイデアをrmの分野に導入した。
二重層moe rm (dmoerm) を提案する。
外層MoEはスパースモデルである。
入力をタスクカテゴリに分類した後、対応する内部層タスク固有モデルにルーティングする。
内層moeは密集したモデルである。
特定のタスクを複数の機能ディメンションに分解し、それぞれにLoRA専門家を個別に微調整する。
その出力はMDPによって合成され、最終的な報酬を計算する。
コストを最小限に抑えるため、我々はパブリックLLM APIを呼び出し、機能優先ラベルを得る。
手動ラベル付きデータセットの検証は、我々のモデルが人間の好みとの整合性を向上し、先進的な生成アプローチを実現することを確認する。
一方, ボンサンプリングとrl実験により, 本モデルがrmの最先端アンサンブル法を上回り, 過最適化問題を緩和することを示す。
私たちのコードとデータセットは以下の通りです。
関連論文リスト
- Task-customized Masked AutoEncoder via Mixture of Cluster-conditional
Experts [104.9871176044644]
Masked Autoencoder (MAE) は,モデル事前学習において有望な結果が得られる自己教師型学習手法である。
我々は、新しいMAEベースの事前学習パラダイム、Mixture of Cluster-conditional Experts (MoCE)を提案する。
MoCEは、クラスタ条件ゲートを使用して、各専門家にセマンティックなイメージのみをトレーニングする。
論文 参考訳(メタデータ) (2024-02-08T03:46:32Z) - LLaVA-MoLE: Sparse Mixture of LoRA Experts for Mitigating Data Conflicts
in Instruction Finetuning MLLMs [29.96139552754377]
MLLMの命令微調整に有効なMixture of Experts(MoE)設計法を提案する。
大規模な実験により、LLaVA-MoLEは複数の異なる命令データセットを混合する際のデータ競合問題を効果的に軽減することが証明された。
LLaVA-MoLEは2倍のサンプルで訓練された平らなLoRAベースラインよりも優れている。
論文 参考訳(メタデータ) (2024-01-29T13:48:36Z) - Routing to the Expert: Efficient Reward-guided Ensemble of Large
Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。
さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文 参考訳(メタデータ) (2023-11-15T04:40:43Z) - Confronting Reward Model Overoptimization with Constrained RLHF [114.71591361764547]
成分RM間の相関がこれらの点の位置に有意な影響を及ぼすことを示す。
ラグランジュ乗算器によって自然に表現される動的重みを学習することで、成分RMの重み付けの問題に対処する。
論文 参考訳(メタデータ) (2023-10-06T16:59:17Z) - The Trickle-down Impact of Reward (In-)consistency on RLHF [71.37987812944971]
報酬の不整合性は、人間のフィードバックプロセスから下流の強化学習に悪影響を及ぼすことを示す。
RMの一貫性のベンチマーク戦略であるContrast Instructionsを提案する。
より一貫したRMでトレーニングしたRLHFモデルにより,より有用な応答が得られることを示す。
論文 参考訳(メタデータ) (2023-09-28T04:05:13Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - DAIR: Data Augmented Invariant Regularization [20.364846667289374]
本稿では,データ拡張不変正規化(DAIR)を提案する。
DAIRレギュレータの特定の形式は、さまざまな設定で一貫して良好に機能することを示す。
ドメインシフトを含む複数の実世界の学習問題に適用する。
論文 参考訳(メタデータ) (2021-10-21T15:30:40Z) - End-to-End Automatic Speech Recognition with Deep Mutual Learning [29.925641799136663]
この論文は、エンドツーエンドASRモデルに深層相互学習を適用する最初のものである。
DMLでは、トレーニングプロセス全体を通して互いに模倣することで、複数のモデルを同時および共同でトレーニングします。
従来の学習法と比較して,dmlは両方のモデリング設定のasr性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T13:52:06Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。