論文の概要: EMORL: Ensemble Multi-Objective Reinforcement Learning for Efficient and Flexible LLM Fine-Tuning
- arxiv url: http://arxiv.org/abs/2505.02579v1
- Date: Mon, 05 May 2025 11:30:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.66248
- Title: EMORL: Ensemble Multi-Objective Reinforcement Learning for Efficient and Flexible LLM Fine-Tuning
- Title(参考訳): EMORL:効率よく柔軟なLLMファインチューニングのための多目的強化学習
- Authors: Lingxiao Kong, Cong Yang, Susanne Neufang, Oya Deniz Beyan, Zeyd Boukhers,
- Abstract要約: 個別の目的を持つ複数のモデルを微調整するEnsemble Multi-Objective RL (EMORL) フレームワークを提案する。
本手法は,複数の目的からコンテキスト情報を組み込んで,各モデルの最後に隠された状態を収集する最初の方法である。
PAIR と Psych8k データセットの実験において,EMORL の既存のベースラインに対する利点を示す。
- 参考スコア(独自算出の注目度): 6.675088737484839
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in reinforcement learning (RL) for large language model (LLM) fine-tuning show promise in addressing multi-objective tasks but still face significant challenges, including complex objective balancing, low training efficiency, poor scalability, and limited explainability. Leveraging ensemble learning principles, we introduce an Ensemble Multi-Objective RL (EMORL) framework that fine-tunes multiple models with individual objectives while optimizing their aggregation after the training to improve efficiency and flexibility. Our method is the first to aggregate the last hidden states of individual models, incorporating contextual information from multiple objectives. This approach is supported by a hierarchical grid search algorithm that identifies optimal weighted combinations. We evaluate EMORL on counselor reflection generation tasks, using text-scoring LLMs to evaluate the generations and provide rewards during RL fine-tuning. Through comprehensive experiments on the PAIR and Psych8k datasets, we demonstrate the advantages of EMORL against existing baselines: significantly lower and more stable training consumption ($17,529\pm 1,650$ data points and $6,573\pm 147.43$ seconds), improved scalability and explainability, and comparable performance across multiple objectives.
- Abstract(参考訳): 大規模言語モデル(LLM)のための強化学習(RL)の最近の進歩は、多目的タスクに対処する上で有望であるが、複雑な客観的バランス、訓練効率の低下、スケーラビリティの低下、限定的な説明可能性など、依然として重大な課題に直面している。
アンサンブル学習の原則を活用することで,複数のモデルを個別の目的に合わせて微調整し,学習後のアグリゲーションを最適化し,効率と柔軟性を向上させる,EMORL(Ensemble Multi-Objective RL)フレームワークを導入する。
本手法は,複数の目的からコンテキスト情報を組み込んで,各モデルの最後に隠された状態を収集する最初の方法である。
このアプローチは、最適重み付け組合せを識別する階層的グリッド探索アルゴリズムによって支持される。
リフレクション生成タスクのEMORLを評価し、テキストスコーリングLLMを用いて世代評価を行い、RL微調整中に報酬を与える。
PAIRとPsych8kデータセットに関する包括的な実験を通じて、EMORLの既存のベースラインに対する利点を実証する: 大幅に低く安定したトレーニング消費(17,529\pm 1,650$データポイントと6,573\pm 147.43$秒)、スケーラビリティと説明可能性の改善、および複数の目的に対する同等のパフォーマンス。
関連論文リスト
- CSMF: Cascaded Selective Mask Fine-Tuning for Multi-Objective Embedding-Based Retrieval [17.73933834390597]
本稿では,多目的ESRにおける検索効率とサービス性能を両立させる手法を提案する。
Cascaded Selective Mask Fine-Tuning (CSMF)フレームワークは、モデルパラメータを選択的にマスクし、各目的に対して独立した学習空間を解放する。
論文 参考訳(メタデータ) (2025-04-17T13:10:56Z) - SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。
LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。
本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。
我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文 参考訳(メタデータ) (2025-03-19T17:55:08Z) - Pareto Set Learning for Multi-Objective Reinforcement Learning [19.720934024901542]
MORL(Multi-Objective RL)のための分解ベースフレームワークを提案する。
PSL-MORLは、ハイパーネットワークの生成能力を利用して、各分解重量に対するポリシーネットワークのパラメータを生成する。
PSL-MORL は高体積, 疎度指標において最先端の MORL 法より有意に優れていた。
論文 参考訳(メタデータ) (2025-01-12T10:43:05Z) - More is not always better? Enhancing Many-Shot In-Context Learning with Differentiated and Reweighting Objectives [50.772462704559345]
本稿では,微分学習と優位性に基づく再重み付けによりモデル性能を向上させる新しい最適化手法であるDryCLを紹介する。
グローバルに、DryCLは差別化学習を利用してNLLの目的を最適化し、マルチショットのパフォーマンスがゼロショットレベルを超えていることを保証する。
Many-Shot ICL Benchmark (ICL-50) は、最大8,000トークンのシーケンスで1から350までのショット数をカバーする50のタスクの大規模ベンチマークである。
論文 参考訳(メタデータ) (2025-01-07T14:57:08Z) - Offline Reinforcement Learning for LLM Multi-Step Reasoning [15.687002884103537]
OREO(Offline Reasoning Optimization)は,多段階推論の強化を目的としたオフライン強化学習手法である。
これにより、ペアワイズデータを収集する必要がなくなり、より優れたクレジット割り当てが可能になる。
マルチステップ推論ベンチマークでは、既存のオフライン学習手法を超越している。
論文 参考訳(メタデータ) (2024-12-20T18:49:45Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。