論文の概要: LASeR: Learning to Adaptively Select Reward Models with Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2410.01735v1
- Date: Wed, 2 Oct 2024 16:46:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 15:43:48.623120
- Title: LASeR: Learning to Adaptively Select Reward Models with Multi-Armed Bandits
- Title(参考訳): LASeR:マルチアーマッドバンドを用いたリワードモデル選択学習
- Authors: Duy Nguyen, Archiki Prasad, Elias Stengel-Eskin, Mohit Bansal,
- Abstract要約: 本稿では,複数のリワードモデル(RM)を用いてLLMを反復的に学習するLASeRを紹介する。
以上の結果から,複数のRMを最適化することにより,LASeRの繰り返しLLM最適化を向上できることが示唆された。
また、LASeRを用いて緩和可能な複数のRMからの相反する選好の存在を検証する。
- 参考スコア(独自算出の注目度): 56.93583799109029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward Models (RMs) play a crucial role in aligning LLMs with human preferences, enhancing their performance by ranking outputs during inference or iterative training. However, the degree to which an RM generalizes to new tasks is often not known a priori (e.g. some RMs may excel at scoring creative writing vs. math reasoning). Therefore, using only one fixed RM while training LLMs can be suboptimal. Moreover, optimizing LLMs with multiple RMs simultaneously can be prohibitively computationally-intensive and challenging due to conflicting signals from different RMs, potentially degrading performance. To address these challenges, we introduce LASeR (Learning to Adaptively Select Rewards), which iteratively trains LLMs using multiple RMs, selecting and utilizing the most well-suited RM for each instance to rank outputs and generate preference data, framed as a multi-armed bandit problem. Our results on commonsense and math reasoning tasks demonstrate that LASeR can boost iterative LLM optimization by optimizing for multiple RMs, improving the absolute average accuracy of Llama-3-8B over three datasets by 2.67% over training with ensemble RM scores while also showing superior training efficiency (e.g., a 2x speedup). Moreover, on WildChat, a benchmark of instruction-following prompts, we find that using Llama-3-8B LASeR leads to a 71.45% AlpacaEval win rate over sequentially optimizing multiple RMs. Extending to long-context generation tasks, we find that on Llama-3-8B, LASeR achieves an average improvement of 2.64 F1 and 2.42 F1 on single- and multi-document QA over random RM selection when used with best-of-n sampling. LASeR is robust to noisy rewards and generalizes to multiple settings. Finally, LASeR's RM selection changes depending on the underlying task or instance and we verify the presence of conflicting preferences from multiple RMs that can be mitigated using LASeR.
- Abstract(参考訳): リワードモデル(RM)は、LLMと人間の嗜好の整合において重要な役割を担い、推論や反復訓練の際のアウトプットのランク付けによってそのパフォーマンスを高める。
しかし、RMが新しいタスクに一般化する度合いは、しばしば先入観として知られない(例えば、RMの中には、創造的な記述と数学の推論のスコア付けに長けているものもある)。
したがって、LDMを訓練している間に1つの固定RMしか使用できない。
さらに、複数のRMを同時に最適化することは、異なるRMからの信号が競合するため、計算集約的で困難であり、性能が低下する可能性がある。
これらの課題に対処するために、複数のRMを用いてLCMを反復的に訓練し、各インスタンスに最も適したRMを選択して活用し、出力をランク付けし、優先データを生成するLASeR(Learning to Adaptively Select Rewards)を導入する。
本研究は,複数のRMを最適化し,Llama-3-8Bの絶対平均精度を2.67%向上させるとともに,学習効率も向上することを示した。
さらに、命令追従プロンプトのベンチマークであるWildChatでは、Llama-3-8B LASeRを用いることで、複数のRMの逐次最適化よりも71.45%のAlpacaEvalが勝利することがわかった。
Llama-3-8Bでは,Llama-3-8Bでは,単文書QAと多文書QAの2.64F1と2.42F1の平均的な改善を実現している。
LASeRはノイズの多い報酬に頑丈で、複数の設定に一般化する。
最後に、LASeRのRM選択は、基礎となるタスクやインスタンスによって変化し、LASeRを用いて緩和できる複数のRMから競合する嗜好の存在を検証する。
関連論文リスト
- MALoRA: Mixture of Asymmetric Low-Rank Adaptation for Enhanced Multi-Task Learning [29.957620178740186]
マルチタスクのシナリオでは、トレーニングの不均衡やシーソー効果といった課題が頻繁に現れます。
フレキシブルな微調整フレームワークとして非対称低ランク適応(MALoRA)の混合を提案する。
MALoRAはトレーニング可能なパラメータの数を30%から48%削減し、トレーニング速度を1.2倍にし、シングルタスクのLoRAモデルの計算効率に匹敵する。
論文 参考訳(メタデータ) (2024-10-30T07:53:52Z) - RRM: Robust Reward Model Training Mitigates Reward Hacking [51.12341734942797]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
これらのアーティファクトとは無関係に好みを学習する因果的枠組みを導入する。
実験の結果,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデルを実現することができた。
論文 参考訳(メタデータ) (2024-09-20T01:46:07Z) - Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts [23.27203570485055]
人からのフィードバックから強化学習(RLHF)が,大規模言語モデルと人間の嗜好を整合させる主要な手法として登場した。
多次元絶対値データを用いて報酬モデル(RM)を訓練するための2段階の手法を提案する。
我々は、Llama-3 8BでArmoRMを効率よく訓練し、ArmoRMの上部の浅い部分からなるゲーティングネットワークを構築した。
論文 参考訳(メタデータ) (2024-06-18T17:58:28Z) - DMoERM: Recipes of Mixture-of-Experts for Effective Reward Modeling [0.0]
我々は、Mixture-of-Experts(MoE)のアイデアを、報酬モデル(RM)トレーニングの分野に導入する。
特定のタスクを複数の機能ディメンションに分解し、それぞれにLoRA専門家を個別に微調整する。
我々のモデルは、人間の嗜好との整合性に優れ、先進的な生成アプローチを実現する。
論文 参考訳(メタデータ) (2024-03-02T12:31:22Z) - LoraRetriever: Input-Aware LoRA Retrieval and Composition for Mixed
Tasks in the Wild [76.67343971195267]
Low-Rank Adaptation (LoRA)は、大規模言語モデル(LLM)を微調整するための効率的なソリューションを提供する。
LoraRetrieverは、入力プロンプトに従って複数のLoRAを適応的に検索して構成する検索テーマ構成フレームワークである。
実験結果から、LoraRetrieverは一貫してベースラインを上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-02-15T15:02:46Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Confronting Reward Model Overoptimization with Constrained RLHF [114.71591361764547]
成分RM間の相関がこれらの点の位置に有意な影響を及ぼすことを示す。
ラグランジュ乗算器によって自然に表現される動的重みを学習することで、成分RMの重み付けの問題に対処する。
論文 参考訳(メタデータ) (2023-10-06T16:59:17Z) - The Trickle-down Impact of Reward (In-)consistency on RLHF [71.37987812944971]
報酬の不整合性は、人間のフィードバックプロセスから下流の強化学習に悪影響を及ぼすことを示す。
RMの一貫性のベンチマーク戦略であるContrast Instructionsを提案する。
より一貫したRMでトレーニングしたRLHFモデルにより,より有用な応答が得られることを示す。
論文 参考訳(メタデータ) (2023-09-28T04:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。