論文の概要: EMORL: Ensemble Multi-Objective Reinforcement Learning for Efficient and Flexible LLM Fine-Tuning
- arxiv url: http://arxiv.org/abs/2505.02579v2
- Date: Tue, 06 May 2025 06:26:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 12:42:37.976679
- Title: EMORL: Ensemble Multi-Objective Reinforcement Learning for Efficient and Flexible LLM Fine-Tuning
- Title(参考訳): EMORL:効率よく柔軟なLLMファインチューニングのための多目的強化学習
- Authors: Lingxiao Kong, Cong Yang, Susanne Neufang, Oya Deniz Beyan, Zeyd Boukhers,
- Abstract要約: 個別の目的を持つ複数のモデルを微調整するEnsemble Multi-Objective RL (EMORL) フレームワークを提案する。
本手法は,複数の目的からコンテキスト情報を組み込んで,各モデルの最後に隠された状態を収集する最初の方法である。
PAIR と Psych8k データセットの実験において,EMORL の既存のベースラインに対する利点を示す。
- 参考スコア(独自算出の注目度): 6.675088737484839
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in reinforcement learning (RL) for large language model (LLM) fine-tuning show promise in addressing multi-objective tasks but still face significant challenges, including complex objective balancing, low training efficiency, poor scalability, and limited explainability. Leveraging ensemble learning principles, we introduce an Ensemble Multi-Objective RL (EMORL) framework that fine-tunes multiple models with individual objectives while optimizing their aggregation after the training to improve efficiency and flexibility. Our method is the first to aggregate the last hidden states of individual models, incorporating contextual information from multiple objectives. This approach is supported by a hierarchical grid search algorithm that identifies optimal weighted combinations. We evaluate EMORL on counselor reflection generation tasks, using text-scoring LLMs to evaluate the generations and provide rewards during RL fine-tuning. Through comprehensive experiments on the PAIR and Psych8k datasets, we demonstrate the advantages of EMORL against existing baselines: significantly lower and more stable training consumption ($17,529\pm 1,650$ data points and $6,573\pm 147.43$ seconds), improved scalability and explainability, and comparable performance across multiple objectives.
- Abstract(参考訳): 大規模言語モデル(LLM)のための強化学習(RL)の最近の進歩は、多目的タスクに対処する上で有望であるが、複雑な客観的バランス、訓練効率の低下、スケーラビリティの低下、限定的な説明可能性など、依然として重大な課題に直面している。
アンサンブル学習の原則を活用することで,複数のモデルを個別の目的に合わせて微調整し,学習後のアグリゲーションを最適化し,効率と柔軟性を向上させる,EMORL(Ensemble Multi-Objective RL)フレームワークを導入する。
本手法は,複数の目的からコンテキスト情報を組み込んで,各モデルの最後に隠された状態を収集する最初の方法である。
このアプローチは、最適重み付け組合せを識別する階層的グリッド探索アルゴリズムによって支持される。
リフレクション生成タスクのEMORLを評価し、テキストスコーリングLLMを用いて世代評価を行い、RL微調整中に報酬を与える。
PAIRとPsych8kデータセットに関する包括的な実験を通じて、EMORLの既存のベースラインに対する利点を実証する: 大幅に低く安定したトレーニング消費(17,529\pm 1,650$データポイントと6,573\pm 147.43$秒)、スケーラビリティと説明可能性の改善、および複数の目的に対する同等のパフォーマンス。
関連論文リスト
- SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - CSMF: Cascaded Selective Mask Fine-Tuning for Multi-Objective Embedding-Based Retrieval [17.73933834390597]
本稿では,多目的ESRにおける検索効率とサービス性能を両立させる手法を提案する。
Cascaded Selective Mask Fine-Tuning (CSMF)フレームワークは、モデルパラメータを選択的にマスクし、各目的に対して独立した学習空間を解放する。
論文 参考訳(メタデータ) (2025-04-17T13:10:56Z) - Do We Truly Need So Many Samples? Multi-LLM Repeated Sampling Efficiently Scales Test-Time Compute [54.22256089592864]
本稿では,テスト時間計算のスケールアップによるLCM性能向上のための,シンプルで効果的で費用効率のよい手法を提案する。
当社の戦略は,複数のモデルを組み込んで,補完的な強みを活用するという,新たなツイストによって,繰り返しサンプリングされる投票フレームワークを基盤としています。
論文 参考訳(メタデータ) (2025-04-01T13:13:43Z) - SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。
LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。
本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。
我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文 参考訳(メタデータ) (2025-03-19T17:55:08Z) - Activation-Informed Merging of Large Language Models [10.020512818972357]
本稿では,大規模言語モデルのアクティベーション空間から情報を統合する手法である Activation-Informed Merging (AIM) について述べる。
我々は、AIMが複数のベンチマークでマージされたモデルの性能を大幅に向上させることを実証的に実証した。
論文 参考訳(メタデータ) (2025-02-04T15:42:03Z) - Pareto Set Learning for Multi-Objective Reinforcement Learning [19.720934024901542]
MORL(Multi-Objective RL)のための分解ベースフレームワークを提案する。
PSL-MORLは、ハイパーネットワークの生成能力を利用して、各分解重量に対するポリシーネットワークのパラメータを生成する。
PSL-MORL は高体積, 疎度指標において最先端の MORL 法より有意に優れていた。
論文 参考訳(メタデータ) (2025-01-12T10:43:05Z) - More is not always better? Enhancing Many-Shot In-Context Learning with Differentiated and Reweighting Objectives [50.772462704559345]
本稿では,微分学習と優位性に基づく再重み付けによりモデル性能を向上させる新しい最適化手法であるDryCLを紹介する。
グローバルに、DryCLは差別化学習を利用してNLLの目的を最適化し、マルチショットのパフォーマンスがゼロショットレベルを超えていることを保証する。
Many-Shot ICL Benchmark (ICL-50) は、最大8,000トークンのシーケンスで1から350までのショット数をカバーする50のタスクの大規模ベンチマークである。
論文 参考訳(メタデータ) (2025-01-07T14:57:08Z) - Offline Reinforcement Learning for LLM Multi-Step Reasoning [15.687002884103537]
OREO(Offline Reasoning Optimization)は,多段階推論の強化を目的としたオフライン強化学習手法である。
これにより、ペアワイズデータを収集する必要がなくなり、より優れたクレジット割り当てが可能になる。
マルチステップ推論ベンチマークでは、既存のオフライン学習手法を超越している。
論文 参考訳(メタデータ) (2024-12-20T18:49:45Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [51.00436121587591]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメトリした線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Supervised Contrastive Learning as Multi-Objective Optimization for
Fine-Tuning Large Pre-trained Language Models [3.759936323189417]
教師付きコントラスト学習(SCL)は,ほとんどの分類タスクにおいて優れた性能を発揮することが示されている。
本研究では,RoBERTa言語モデルの微調整フェーズにおける多目的最適化問題としてSCL問題を定式化する。
論文 参考訳(メタデータ) (2022-09-28T15:13:58Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。