Fugu-MT 論文翻訳(概要): Dynamic Optimizations of LLM Ensembles with Two-Stage Reinforcement Learning Agents

論文の概要: Dynamic Optimizations of LLM Ensembles with Two-Stage Reinforcement Learning Agents

arxiv url: http://arxiv.org/abs/2502.04492v2
Date: Mon, 13 Oct 2025 03:17:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-14 15:48:08.138872
Title: Dynamic Optimizations of LLM Ensembles with Two-Stage Reinforcement Learning Agents
Title（参考訳）: 2段階強化学習エージェントを用いたLLMアンサンブルの動的最適化
Authors: Selim Furkan Tekin, Fatih Ilhan, Gaowen Liu, Ramana Rao Kompella, Ling Liu,
Abstract要約: 本稿では,LLMをルートおよびアンサンブルする2段階のRLエージェントフレームワークであるRL-Focalを紹介する。焦点多様性により、報酬意識と政策適応型アンサンブル選択と推論融合を効果的に促進することにより、タスク間のパフォーマンスを向上させる。
参考スコア（独自算出の注目度）: 31.341487297459995
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The advancement of LLMs and their accessibility have triggered renewed interest in multi-agent reinforcement learning as robust and adaptive frameworks for dynamically changing environments. This paper introduces RL-Focal, a two-stage RL agent framework that routes and ensembles LLMs. First, we develop the Decider RL-agent, which learns to dynamically select an ensemble of small size ($m_i$) among $N$ LLMs ($m_i \ll N$) for incoming queries from a user-defined downstream task $i$, by maximizing both error-diversity and reasoning-performance of the selected ensemble through iterative updates of task-adaptive rewards and policy. Second, to enable effective fusion of dynamically selected LLMs, we develop the stage-2 Fusion RL-agent, which learns to resolve reasoning conflicts from different LLMs and dynamically adapts to different ensemble teams composed by the Decider Agent for different downstream tasks. Third, we introduce the focal diversity metric to better model the error correlations among multiple LLMs, further improving the generalization performance of the Decider Agent, which actively prunes the ensemble combinations. By focal diversity, we enhance performance across tasks by effectively promoting reward-aware and policy-adaptive ensemble selection and inference fusion. Extensive evaluations on five benchmarks show that RL-Focal achieves the performance improvement of 8.48\% with an ensemble of small size compared to the best individual LLM in a pool and offers stronger robustness. Code is available at https://github.com/sftekin/rl-focal
Abstract（参考訳）: LLMの進歩とそのアクセシビリティは、動的に変化する環境のための堅牢で適応的なフレームワークとして、マルチエージェント強化学習への新たな関心を呼び起こしている。本稿では,LLMをルートおよびアンサンブルする2段階のRLエージェントフレームワークであるRL-Focalを紹介する。まず,ユーザが定義した下流タスク$i$から入力するクエリに対して,タスク適応型報酬とポリシーを反復的に更新することで,小さなサイズのアンサンブル(m_i$)をN$ LLMs$m_i \ll N$)で動的に選択するDecider RL-agentを開発する。第2に,動的に選択されたLLMを効果的に融合させるために,異なるLLMからの推論競合を解決するためのステージ2融合RLエージェントを開発し,異なる下流タスクのためにDecider Agentによって構成された異なるアンサンブルチームに動的に適応する。第3に,複数のLDM間の誤差相関をモデル化するための焦点多様性指標を導入し,さらに,アンサンブルの組み合わせを積極的に作成するDecider Agentの一般化性能を改善した。焦点多様性により、報酬意識と政策適応型アンサンブル選択と推論融合を効果的に促進することにより、タスク間のパフォーマンスを向上させる。 5つのベンチマークを総合評価した結果,RL-Focal はプール内の最良個数 LLM と比較して小さめのアンサンブルで 8.48 % の性能向上を実現し,強靭性を実現している。コードはhttps://github.com/sftekin/rl-focalで入手できる。

関連論文リスト

How to Train a Leader: Hierarchical Reasoning in Multi-Agent LLMs [16.853362180877593]
我々は、訓練されていないピアエージェントのチームを調整するために、単一のリーダーLDMのみを訓練する階層的なマルチエージェントフレームワークを導入する。本結果は,複数エージェントLLMシステムにおける協調推論のための単一柔軟なリーダのトレーニングの有効性と効率性を強調した。
論文参考訳（メタデータ） (2025-07-11T18:34:07Z)
RLAE: Reinforcement Learning-Assisted Ensemble for LLMs [21.77261258691006]
大規模言語モデル(LLM)は、様々なモデルの多様な強みを効果的に組み合わせ、様々なタスクのパフォーマンスを高めるための有望なアプローチを提供する。マルコフ決定プロセス(MDP)のレンズを通してアンサンブルを再構成する新しいフレームワークであるLLMのための強化学習支援アンサンブルを提案する。提案手法では,入力コンテキストと中間生成状態の両方を考慮してアンサンブル重みを動的に調整するRLエージェントを提案する。
論文参考訳（メタデータ） (2025-05-31T07:38:41Z)
Multiple Weaks Win Single Strong: Large Language Models Ensemble Weak Reinforcement Learning Agents into a Supreme One [28.264011412168347]
モデルアンサンブルは強化学習(RL)において有効なエージェントの訓練に有用である。 LLM-Ensは,タスク固有の意味理解を用いてRLモデルのアンサンブルを強化する手法である。
論文参考訳（メタデータ） (2025-05-21T09:35:43Z)
Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Credit Assignment [29.617927643991877]
本稿では,強化学習(RL)を用いた大規模言語モデル(LLM)エージェントの推論能力向上のためのアプローチを検討する。マルチターンエージェントのインタラクションにおいて、より正確なクレジット割り当てを可能にするための、きめ細かいターンレベルの利点推定戦略を導入する。本手法は,ツール実行における100%の成功と,正解マッチングにおける50%の精度を実現し,ベースラインを著しく上回る結果を得た。
論文参考訳（メタデータ） (2025-05-17T04:09:46Z)
Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models [83.8639566087953]
本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。 DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
論文参考訳（メタデータ） (2025-05-05T23:54:53Z)
Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
LERO: LLM-driven Evolutionary framework with Hybrid Rewards and Enhanced Observation for Multi-Agent Reinforcement Learning [4.343021413805699]
マルチエージェント強化学習(MARL)は、シングルエージェントRLとは異なる2つの重要なボトルネックに直面している。 LEROは大規模言語モデル(LLM)と進化的最適化を統合し,これらのMARL固有の課題に対処するフレームワークである。
論文参考訳（メタデータ） (2025-03-25T06:28:42Z)
ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [54.787341008881036]
Reinforced Meta-thinking Agents(ReMA)は,MARL(Multi-Agent Reinforcement Learning)を利用したメタ思考行動の抽出手法である。 ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。実験の結果、ReMAは複雑な推論タスクにおいて単一エージェントRLベースラインよりも優れていた。
論文参考訳（メタデータ） (2025-03-12T16:05:31Z)
O-MAPL: Offline Multi-agent Preference Learning [5.4482836906033585]
実演から報酬関数を推定することは強化学習(RL)の重要な課題である協調型MARLのためのエンドツーエンドの嗜好に基づく新しい学習フレームワークを提案する。我々のアルゴリズムは様々なタスクにまたがって既存の手法より優れている。
論文参考訳（メタデータ） (2025-01-31T08:08:20Z)
MALT: Improving Reasoning with Multi-Agent LLM Training [64.13803241218886]
推論問題に対するマルチエージェントLLMトレーニング(MALT)に向けた第一歩を提示する。提案手法では,ヘテロジニアスLSMが割り当てられた逐次的マルチエージェント構成を用いる。我々は,MATH,GSM8k,CQAにまたがるアプローチを評価し,MALT on Llama 3.1 8Bモデルでそれぞれ14.14%,7.12%,9.40%の相対的な改善を実現した。
論文参考訳（メタデータ） (2024-12-02T19:30:36Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
SMoA: Improving Multi-agent Large Language Models with Sparse Mixture-of-Agents [14.08299391695986]
マルチエージェントLLMの効率と多様性を向上させるために,スパース混合エージェント(SMoA)フレームワークを提案する。 SMoAは、個々のLSMエージェント間で情報の流れを分散させる新しい応答選択と早期停止機構を導入している。推論、アライメント、公平性ベンチマークの実験は、SMoAが従来の混合エージェントアプローチに匹敵するパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2024-11-05T17:33:39Z)
Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining [40.21546440726592]
本稿では,大規模言語モデル(LLM)事前学習のための新しいマルチエージェント協調データ選択機構を提案する。このフレームワークでは、各データ選択メソッドが独立したエージェントとして機能し、エージェントコンソールは、すべてのエージェントからの情報を動的に統合するように設計されている。
論文参考訳（メタデータ） (2024-10-10T16:45:28Z)
Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文参考訳（メタデータ） (2024-05-16T17:50:19Z)
Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文参考訳（メタデータ） (2024-01-19T05:02:46Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
Towards Global Optimality in Cooperative MARL with the Transformation And Distillation Framework [26.612749327414335]
分散実行は協調型マルチエージェント強化学習(MARL)における中核的要求である本稿では,マルチエージェントポリシー勾配法と値分解法という,分散ポリシを用いた2つの一般的なアルゴリズムのクラスを理論的に解析する。我々は,TAD-PPO が有限マルチエージェント MDP において最適政策学習を理論的に行うことができることを示す。
論文参考訳（メタデータ） (2022-07-12T06:59:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。