Fugu-MT 論文翻訳(概要): Multi-Agent Reinforcement Learning with Focal Diversity Optimization

論文の概要: Multi-Agent Reinforcement Learning with Focal Diversity Optimization

arxiv url: http://arxiv.org/abs/2502.04492v1
Date: Thu, 06 Feb 2025 20:44:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-10 18:29:32.92346
Title: Multi-Agent Reinforcement Learning with Focal Diversity Optimization
Title（参考訳）: フーカル多様性最適化を用いたマルチエージェント強化学習
Authors: Selim Furkan Tekin, Fatih Ilhan, Tiansheng Huang, Sihao Hu, Zachary Yahn, Ling Liu,
Abstract要約: MARL-Focal と呼ばれる多エージェント強化学習手法を提案する。本モデルでは,最高のLCMエージェントと比較して5.51%の性能向上を実現している。
参考スコア（独自算出の注目度）: 7.498844064516196
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The advancement of Large Language Models (LLMs) and their finetuning strategies has triggered the renewed interests in multi-agent reinforcement learning. In this paper, we introduce a focal diversity-optimized multi-agent reinforcement learning approach, coined as MARL-Focal, with three unique characteristics. First, we develop an agent-fusion framework for encouraging multiple LLM based agents to collaborate in producing the final inference output for each LLM query. Second, we develop a focal-diversity optimized agent selection algorithm that can choose a small subset of the available agents based on how well they can complement one another to generate the query output. Finally, we design a conflict-resolution method to detect output inconsistency among multiple agents and produce our MARL-Focal output through reward-aware and policy-adaptive inference fusion. Extensive evaluations on five benchmarks show that MARL-Focal is cost-efficient and adversarial-robust. Our multi-agent fusion model achieves performance improvement of 5.51\% compared to the best individual LLM-agent and offers stronger robustness over the TruthfulQA benchmark. Code is available at https://github.com/sftekin/rl-focal
Abstract（参考訳）: 大規模言語モデル(LLM)の進歩とその微調整戦略は,多エージェント強化学習への新たな関心を喚起している。本稿では,MARL-Focalと呼ばれる焦点多様性に最適化されたマルチエージェント強化学習手法を提案する。まず,複数のLLMをベースとしたエージェントに対して,各LLMクエリに対して最終的な推論出力を生成することを奨励するエージェント融合フレームワークを開発する。第2に、各エージェントが相互に補完してクエリ出力を生成する方法に基づいて、利用可能なエージェントの小さなサブセットを選択できる焦点多様性最適化エージェント選択アルゴリズムを開発する。最後に、複数のエージェント間の出力不整合を検出し、報酬認識とポリシー適応型推論融合を通じてMARL-Focal出力を生成するコンフリクト分解法を設計する。 5つのベンチマークの大規模な評価は、MARL-Focalがコスト効率が高く、対向ロバストであることを示している。我々のマルチエージェント核融合モデルでは、最高のLCMエージェントと比較して5.51倍の性能向上を実現し、TruthfulQAベンチマークよりも強い堅牢性を提供する。コードはhttps://github.com/sftekin/rl-focalで入手できる。

関連論文リスト

Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
LERO: LLM-driven Evolutionary framework with Hybrid Rewards and Enhanced Observation for Multi-Agent Reinforcement Learning [4.343021413805699]
マルチエージェント強化学習(MARL)は、シングルエージェントRLとは異なる2つの重要なボトルネックに直面している。 LEROは大規模言語モデル(LLM)と進化的最適化を統合し,これらのMARL固有の課題に対処するフレームワークである。
論文参考訳（メタデータ） (2025-03-25T06:28:42Z)
ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [54.787341008881036]
Reinforced Meta-thinking Agents(ReMA)は,MARL(Multi-Agent Reinforcement Learning)を利用したメタ思考行動の抽出手法である。 ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。実験の結果、ReMAは複雑な推論タスクにおいて単一エージェントRLベースラインよりも優れていた。
論文参考訳（メタデータ） (2025-03-12T16:05:31Z)
O-MAPL: Offline Multi-agent Preference Learning [5.4482836906033585]
実演から報酬関数を推定することは強化学習(RL)の重要な課題である協調型MARLのためのエンドツーエンドの嗜好に基づく新しい学習フレームワークを提案する。我々のアルゴリズムは様々なタスクにまたがって既存の手法より優れている。
論文参考訳（メタデータ） (2025-01-31T08:08:20Z)
MALT: Improving Reasoning with Multi-Agent LLM Training [64.13803241218886]
推論問題に対するマルチエージェントLLMトレーニング(MALT)に向けた第一歩を提示する。提案手法では,ヘテロジニアスLSMが割り当てられた逐次的マルチエージェント構成を用いる。我々は,MATH,GSM8k,CQAにまたがるアプローチを評価し,MALT on Llama 3.1 8Bモデルでそれぞれ14.14%,7.12%,9.40%の相対的な改善を実現した。
論文参考訳（メタデータ） (2024-12-02T19:30:36Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
SMoA: Improving Multi-agent Large Language Models with Sparse Mixture-of-Agents [14.08299391695986]
マルチエージェントLLMの効率と多様性を向上させるために,スパース混合エージェント(SMoA)フレームワークを提案する。 SMoAは、個々のLSMエージェント間で情報の流れを分散させる新しい応答選択と早期停止機構を導入している。推論、アライメント、公平性ベンチマークの実験は、SMoAが従来の混合エージェントアプローチに匹敵するパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2024-11-05T17:33:39Z)
Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining [40.21546440726592]
本稿では,大規模言語モデル(LLM)事前学習のための新しいマルチエージェント協調データ選択機構を提案する。このフレームワークでは、各データ選択メソッドが独立したエージェントとして機能し、エージェントコンソールは、すべてのエージェントからの情報を動的に統合するように設計されている。
論文参考訳（メタデータ） (2024-10-10T16:45:28Z)
Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文参考訳（メタデータ） (2024-05-16T17:50:19Z)
Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文参考訳（メタデータ） (2024-01-19T05:02:46Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
Towards Global Optimality in Cooperative MARL with the Transformation And Distillation Framework [26.612749327414335]
分散実行は協調型マルチエージェント強化学習(MARL)における中核的要求である本稿では,マルチエージェントポリシー勾配法と値分解法という,分散ポリシを用いた2つの一般的なアルゴリズムのクラスを理論的に解析する。我々は,TAD-PPO が有限マルチエージェント MDP において最適政策学習を理論的に行うことができることを示す。
論文参考訳（メタデータ） (2022-07-12T06:59:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。