Fugu-MT 論文翻訳(概要): DMoERM: Recipes of Mixture-of-Experts for Effective Reward Modeling

論文の概要: DMoERM: Recipes of Mixture-of-Experts for Effective Reward Modeling

arxiv url: http://arxiv.org/abs/2403.01197v1
Date: Sat, 2 Mar 2024 12:31:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 14:48:18.225131
Title: DMoERM: Recipes of Mixture-of-Experts for Effective Reward Modeling
Title（参考訳）: DMoERM:効果的なリワードモデリングのためのMixture-of-Expertsの準備
Authors: Shanghaoran Quan
Abstract要約: 我々は、Mixture-of-Experts(MoE)のアイデアを、報酬モデル(RM)トレーニングの分野に導入する。特定のタスクを複数の機能ディメンションに分解し、それぞれにLoRA専門家を個別に微調整する。我々のモデルは、人間の嗜好との整合性に優れ、先進的な生成アプローチを実現する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The performance of the reward model (RM) is a critical factor in improving the effectiveness of the large language model (LLM) during alignment fine-tuning. There remain two challenges in RM training: 1) training the same RM using various categories of data may cause its generalization performance to suffer from multi-task disturbance, and 2) the human annotation consistency rate is generally only $60\%$ to $75\%$, causing training data to contain a lot of noise. To tackle these two challenges, we introduced the idea of Mixture-of-Experts (MoE) into the field of RM for the first time. We propose the Double-Layer MoE RM (DMoERM). The outer layer MoE is a sparse model. After classifying an input into task categories, we route it to the corresponding inner layer task-specific model. The inner layer MoE is a dense model. We decompose the specific task into multiple capability dimensions and individually fine-tune a LoRA expert on each one. Their outputs are then synthesized by an MLP to compute the final rewards. To minimize costs, we call a public LLM API to obtain the capability preference labels. The validation on manually labeled datasets confirms that our model attains superior consistency with human preference and outstrips advanced generative approaches. Meanwhile, through BoN sampling and RL experiments, we demonstrate that our model outperforms state-of-the-art ensemble methods of RM and mitigates the overoptimization problem. Our code and dataset are available at: https://github.com/quanshr/DMoERM-v1.
Abstract（参考訳）: 報奨モデル(RM)の性能は,アライメント微調整時の大規模言語モデル(LLM)の有効性を向上させる上で重要な要素である。 RMトレーニングには2つの課題がある。 1) 様々なカテゴリのデータを用いた同じrmのトレーニングは、その一般化性能をマルチタスク障害に苦しめる可能性がある。 2) 人間のアノテーションの一貫性率は一般的に60\%$から75\%$であり、トレーニングデータには多くのノイズが含まれている。これら2つの課題に取り組むため,我々は初めてmixed-of-experts (moe) のアイデアをrmの分野に導入した。二重層moe rm (dmoerm) を提案する。外層MoEはスパースモデルである。入力をタスクカテゴリに分類した後、対応する内部層タスク固有モデルにルーティングする。内層moeは密集したモデルである。特定のタスクを複数の機能ディメンションに分解し、それぞれにLoRA専門家を個別に微調整する。その出力はMDPによって合成され、最終的な報酬を計算する。コストを最小限に抑えるため、我々はパブリックLLM APIを呼び出し、機能優先ラベルを得る。手動ラベル付きデータセットの検証は、我々のモデルが人間の好みとの整合性を向上し、先進的な生成アプローチを実現することを確認する。一方, ボンサンプリングとrl実験により, 本モデルがrmの最先端アンサンブル法を上回り, 過最適化問題を緩和することを示す。私たちのコードとデータセットは以下の通りです。

関連論文リスト

Off-Policy Corrected Reward Modeling for Reinforcement Learning from Human Feedback [52.1410307583181]
我々は、ヒューマンフィードバックからの強化学習を用いて、複雑な人間の嗜好に従うために言語モデル(LM)を訓練する。トレーニングが進むにつれて、LMが生成する応答は、報酬モデル(RM)の応答にもはや似ていない。新しいラベルやサンプルを必要とせず、重み付けによりRMを補正するオフポリティ補正リワードモデリングを提案する。
論文参考訳（メタデータ） (2025-07-21T11:19:04Z)
Observe-R1: Unlocking Reasoning Abilities of MLLMs with Dynamic Progressive Reinforcement Learning [3.364797975300393]
マルチモーダル大規模言語モデル(MLLM)の推論能力向上を目的とした新しいフレームワークであるObserve-R1を提案する。我々は,RL学習におけるデータサンプルの難易度と難易度に応じて整理し,サンプル化したNeuraLadderデータセットを構築した。 Qwen2.5-VL-3B と Qwen2.5-VL-7B のニューララダーデータセットから得られた20kサンプルによる実験により、Observe-R1 は推論と一般的なベンチマークの両方において、より大きな推論モデルよりも優れていることが示された。
論文参考訳（メタデータ） (2025-05-18T14:08:03Z)
VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.35753243272521]
既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
論文参考訳（メタデータ） (2025-03-13T12:03:37Z)
Free Process Rewards without Process Labels [55.14044050782222]
より安価な応答レベルラベルでORMをトレーニングすることで,テキストシンプルなPRMを追加のコストで得ることができることを示す。我々の暗黙のPRMは、クロスエントロピー(CE)損失でインスタンス化されると、よりデータ効率が良く、命令1回に1回しか応答しない訓練でも生成モデルを改善することができることを示す。
論文参考訳（メタデータ） (2024-12-02T21:20:02Z)
Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient [9.519619751861333]
状態空間モデル(SSM)をベースとした世界モデルを提案する。長期依存関係を効果的にキャプチャしながら、メモリと計算の複雑さを$O(n)$達成します。このモデルはアクセス可能で、市販のラップトップでトレーニングすることができる。
論文参考訳（メタデータ） (2024-10-11T15:10:40Z)
LASeR: Learning to Adaptively Select Reward Models with Multi-Armed Bandits [56.93583799109029]
本稿では,複数のリワードモデル(RM)を用いてLLMを反復的に学習するLASeRを紹介する。以上の結果から,複数のRMを最適化することにより,LASeRの繰り返しLLM最適化を向上できることが示唆された。また、LASeRを用いて緩和可能な複数のRMからの相反する選好の存在を検証する。
論文参考訳（メタデータ） (2024-10-02T16:46:38Z)
Layerwise Recurrent Router for Mixture-of-Experts [42.36093735411238]
Mixture-of-Experts (MoE)アーキテクチャは、トレーニングコストを大幅に増加させることなく、モデルサイズをスケールできる能力で際立っている。現在のMoEモデルはパラメータ非効率をしばしば表示する。我々はMixture-of-Experts(RMoE)のためのLayerwise Recurrent Routerを紹介する。
論文参考訳（メタデータ） (2024-08-13T10:25:13Z)
Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts [23.27203570485055]
人からのフィードバックから強化学習(RLHF)が,大規模言語モデルと人間の嗜好を整合させる主要な手法として登場した。多次元絶対値データを用いて報酬モデル(RM)を訓練するための2段階の手法を提案する。我々は、Llama-3 8BでArmoRMを効率よく訓練し、ArmoRMの上部の浅い部分からなるゲーティングネットワークを構築した。
論文参考訳（メタデータ） (2024-06-18T17:58:28Z)
Dynamic Data Mixing Maximizes Instruction Tuning for Mixture-of-Experts [20.202031878825153]
そこで本研究では,MoE命令チューニングのための新しい動的データ混合手法を提案する。 MoEのトークンルーティングの好みにインスパイアされた私たちは、データセットレベルの表現を構築し、データセット間の微妙な違いをキャプチャします。 2つのMoEモデルの結果は、下流の知識と推論タスクとオープンエンドクエリの両方に対するアプローチの有効性を示す。
論文参考訳（メタデータ） (2024-06-17T06:47:03Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
Task-customized Masked AutoEncoder via Mixture of Cluster-conditional Experts [104.9871176044644]
Masked Autoencoder (MAE) は,モデル事前学習において有望な結果が得られる自己教師型学習手法である。我々は、新しいMAEベースの事前学習パラダイム、Mixture of Cluster-conditional Experts (MoCE)を提案する。 MoCEは、クラスタ条件ゲートを使用して、各専門家にセマンティックなイメージのみをトレーニングする。
論文参考訳（メタデータ） (2024-02-08T03:46:32Z)
LLaVA-MoLE: Sparse Mixture of LoRA Experts for Mitigating Data Conflicts in Instruction Finetuning MLLMs [29.96139552754377]
MLLMの命令微調整に有効なMixture of Experts(MoE)設計法を提案する。大規模な実験により、LLaVA-MoLEは複数の異なる命令データセットを混合する際のデータ競合問題を効果的に軽減することが証明された。 LLaVA-MoLEは2倍のサンプルで訓練された平らなLoRAベースラインよりも優れている。
論文参考訳（メタデータ） (2024-01-29T13:48:36Z)
Routing to the Expert: Efficient Reward-guided Ensemble of Large Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文参考訳（メタデータ） (2023-11-15T04:40:43Z)
Confronting Reward Model Overoptimization with Constrained RLHF [114.71591361764547]
成分RM間の相関がこれらの点の位置に有意な影響を及ぼすことを示す。ラグランジュ乗算器によって自然に表現される動的重みを学習することで、成分RMの重み付けの問題に対処する。
論文参考訳（メタデータ） (2023-10-06T16:59:17Z)
The Trickle-down Impact of Reward (In-)consistency on RLHF [71.37987812944971]
報酬の不整合性は、人間のフィードバックプロセスから下流の強化学習に悪影響を及ぼすことを示す。 RMの一貫性のベンチマーク戦略であるContrast Instructionsを提案する。より一貫したRMでトレーニングしたRLHFモデルにより,より有用な応答が得られることを示す。
論文参考訳（メタデータ） (2023-09-28T04:05:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。