論文の概要: Multi-Agent Reinforcement Learning with Focal Diversity Optimization
- arxiv url: http://arxiv.org/abs/2502.04492v1
- Date: Thu, 06 Feb 2025 20:44:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:57:05.637978
- Title: Multi-Agent Reinforcement Learning with Focal Diversity Optimization
- Title(参考訳): フーカル多様性最適化を用いたマルチエージェント強化学習
- Authors: Selim Furkan Tekin, Fatih Ilhan, Tiansheng Huang, Sihao Hu, Zachary Yahn, Ling Liu,
- Abstract要約: MARL-Focal と呼ばれる多エージェント強化学習手法を提案する。
本モデルでは,最高のLCMエージェントと比較して5.51%の性能向上を実現している。
- 参考スコア(独自算出の注目度): 7.498844064516196
- License:
- Abstract: The advancement of Large Language Models (LLMs) and their finetuning strategies has triggered the renewed interests in multi-agent reinforcement learning. In this paper, we introduce a focal diversity-optimized multi-agent reinforcement learning approach, coined as MARL-Focal, with three unique characteristics. First, we develop an agent-fusion framework for encouraging multiple LLM based agents to collaborate in producing the final inference output for each LLM query. Second, we develop a focal-diversity optimized agent selection algorithm that can choose a small subset of the available agents based on how well they can complement one another to generate the query output. Finally, we design a conflict-resolution method to detect output inconsistency among multiple agents and produce our MARL-Focal output through reward-aware and policy-adaptive inference fusion. Extensive evaluations on five benchmarks show that MARL-Focal is cost-efficient and adversarial-robust. Our multi-agent fusion model achieves performance improvement of 5.51\% compared to the best individual LLM-agent and offers stronger robustness over the TruthfulQA benchmark. Code is available at https://github.com/sftekin/rl-focal
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩とその微調整戦略は,多エージェント強化学習への新たな関心を喚起している。
本稿では,MARL-Focalと呼ばれる焦点多様性に最適化されたマルチエージェント強化学習手法を提案する。
まず,複数のLLMをベースとしたエージェントに対して,各LLMクエリに対して最終的な推論出力を生成することを奨励するエージェント融合フレームワークを開発する。
第2に、各エージェントが相互に補完してクエリ出力を生成する方法に基づいて、利用可能なエージェントの小さなサブセットを選択できる焦点多様性最適化エージェント選択アルゴリズムを開発する。
最後に、複数のエージェント間の出力不整合を検出し、報酬認識とポリシー適応型推論融合を通じてMARL-Focal出力を生成するコンフリクト分解法を設計する。
5つのベンチマークの大規模な評価は、MARL-Focalがコスト効率が高く、対向ロバストであることを示している。
我々のマルチエージェント核融合モデルでは、最高のLCMエージェントと比較して5.51倍の性能向上を実現し、TruthfulQAベンチマークよりも強い堅牢性を提供する。
コードはhttps://github.com/sftekin/rl-focalで入手できる。
関連論文リスト
- LLM-Powered Preference Elicitation in Combinatorial Assignment [17.367432304040662]
提案手法は,大規模言語モデル(LLM)を人為的プロキシとして活用し,課題における選好選択(PE)を簡素化するものである。
本稿では,SOTA ML を用いた嗜好推論方式と併用して動作する LLM プロキシのフレームワークを提案する。
コース割当て領域における人間の問合せに対するLLMプロキシの有効性を実験的に評価した。
論文 参考訳(メタデータ) (2025-02-14T17:12:20Z) - O-MAPL: Offline Multi-agent Preference Learning [5.4482836906033585]
実演から報酬関数を推定することは強化学習(RL)の重要な課題である
協調型MARLのためのエンドツーエンドの嗜好に基づく新しい学習フレームワークを提案する。
我々のアルゴリズムは様々なタスクにまたがって既存の手法より優れている。
論文 参考訳(メタデータ) (2025-01-31T08:08:20Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [64.13803241218886]
推論問題に対するマルチエージェントLLMトレーニング(MALT)に向けた第一歩を提示する。
提案手法では,ヘテロジニアスLSMが割り当てられた逐次的マルチエージェント構成を用いる。
我々は,MATH,GSM8k,CQAにまたがるアプローチを評価し,MALT on Llama 3.1 8Bモデルでそれぞれ14.14%,7.12%,9.40%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
本稿では,MLLMのマルチモーダル推論能力を高めるための選好最適化プロセスを提案する。
我々は,マルチモーダルCoT性能を向上する,MPO(Mixed Preference Optimization)と呼ばれるシンプルで効果的な手法を開発した。
我々のモデルであるInternVL2-8B-MPOは、MathVista上で67.0の精度を実現し、InternVL2-8Bを8.7ポイント上回り、10倍のInternVL2-76Bに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - SMoA: Improving Multi-agent Large Language Models with Sparse Mixture-of-Agents [14.08299391695986]
マルチエージェントLLMの効率と多様性を向上させるために,スパース混合エージェント(SMoA)フレームワークを提案する。
SMoAは、個々のLSMエージェント間で情報の流れを分散させる新しい応答選択と早期停止機構を導入している。
推論、アライメント、公平性ベンチマークの実験は、SMoAが従来の混合エージェントアプローチに匹敵するパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-11-05T17:33:39Z) - Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining [40.21546440726592]
本稿では,大規模言語モデル(LLM)事前学習のための新しいマルチエージェント協調データ選択機構を提案する。
このフレームワークでは、各データ選択メソッドが独立したエージェントとして機能し、エージェントコンソールは、すべてのエージェントからの情報を動的に統合するように設計されている。
論文 参考訳(メタデータ) (2024-10-10T16:45:28Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Multi-Agent Trust Region Policy Optimization [34.91180300856614]
TRPOのポリシー更新は,マルチエージェントケースに対する分散コンセンサス最適化問題に変換可能であることを示す。
マルチエージェントTRPO(MATRPO)と呼ばれる分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-15T17:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。