論文の概要: LERO: LLM-driven Evolutionary framework with Hybrid Rewards and Enhanced Observation for Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.21807v1
- Date: Tue, 25 Mar 2025 06:28:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:31:56.409997
- Title: LERO: LLM-driven Evolutionary framework with Hybrid Rewards and Enhanced Observation for Multi-Agent Reinforcement Learning
- Title(参考訳): LERO:マルチエージェント強化学習のためのハイブリッド・リワードを用いたLLM駆動の進化的フレームワーク
- Authors: Yuan Wei, Xiaohan Shan, Jianmin Li,
- Abstract要約: マルチエージェント強化学習(MARL)は、シングルエージェントRLとは異なる2つの重要なボトルネックに直面している。
LEROは大規模言語モデル(LLM)と進化的最適化を統合し,これらのMARL固有の課題に対処するフレームワークである。
- 参考スコア(独自算出の注目度): 4.343021413805699
- License:
- Abstract: Multi-agent reinforcement learning (MARL) faces two critical bottlenecks distinct from single-agent RL: credit assignment in cooperative tasks and partial observability of environmental states. We propose LERO, a framework integrating Large language models (LLMs) with evolutionary optimization to address these MARL-specific challenges. The solution centers on two LLM-generated components: a hybrid reward function that dynamically allocates individual credit through reward decomposition, and an observation enhancement function that augments partial observations with inferred environmental context. An evolutionary algorithm optimizes these components through iterative MARL training cycles, where top-performing candidates guide subsequent LLM generations. Evaluations in Multi-Agent Particle Environments (MPE) demonstrate LERO's superiority over baseline methods, with improved task performance and training efficiency.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は、単一エージェントRLとは異なる2つの重要なボトルネックに直面している。
LEROは大規模言語モデル(LLM)と進化的最適化を統合し,これらのMARL固有の課題に対処するフレームワークである。
このソリューションは、2つのLCM生成成分を中心とし、報酬分解を通じて個人クレジットを動的に割り当てるハイブリッド報酬関数と、推論された環境コンテキストで部分的な観察を増強する観察強化関数である。
進化的アルゴリズムは、これらのコンポーネントを反復的なMARLトレーニングサイクルを通じて最適化する。
MPE(Multi-Agent Particle Environments)の評価では、LEROがベースライン法よりも優れていることが示され、タスク性能とトレーニング効率が向上した。
関連論文リスト
- C-3PO: Compact Plug-and-Play Proxy Optimization to Achieve Human-like Retrieval-Augmented Generation [13.120930059424975]
C-3POは、レトリバーと大規模言語モデル間の通信を容易にするプロキシ中心のフレームワークである。
我々のフレームワークは、RAGパイプライン全体を協調的に最適化する3つの特殊エージェントを実装している。
論文 参考訳(メタデータ) (2025-02-10T07:04:32Z) - Heterogeneous Swarms: Jointly Optimizing Model Roles and Weights for Multi-LLM Systems [102.36545569092777]
モデルの役割と重みを協調的に最適化し,マルチLLMシステムを設計するアルゴリズムであるヘテロジニアス・スウォームを提案する。
実験により、異種群は12タスクの平均18.5%で15のロールベースおよび/またはウェイトベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2025-02-06T21:27:11Z) - Multi-Agent Reinforcement Learning with Focal Diversity Optimization [7.498844064516196]
MARL-Focal と呼ばれる多エージェント強化学習手法を提案する。
本モデルでは,最高のLCMエージェントと比較して5.51%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-02-06T20:44:26Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [66.9481561915524]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とLLMのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - Coevolving with the Other You: Fine-Tuning LLM with Sequential Cooperative Multi-Agent Reinforcement Learning [13.753960633998389]
強化学習 (Reinforcement Learning, RL) は, 特定のタスクにおいて, 大規模言語モデル (LLM) を微調整するための重要な手法として登場した。
本稿では,LLMのRL微調整を逐次協調型マルチエージェント強化学習フレームワークに拡張したCORYを提案する。
その結果,CORYは政策最適性,分散崩壊抵抗性,ロバスト性の訓練においてPPOよりも優れていた。
論文 参考訳(メタデータ) (2024-10-08T14:55:26Z) - Extracting Heuristics from Large Language Models for Reward Shaping in Reinforcement Learning [28.077228879886402]
強化学習(Reinforcement Learning, RL)は、報酬領域におけるサンプルの非効率性に悩まされ、移行時にはさらにその問題が顕著になる。
サンプル効率を改善するために、報酬形成はRLエージェントが最適なポリシーに迅速に収束するのに役立つ本質的な報酬を導入するためのよく研究されたアプローチである。
論文 参考訳(メタデータ) (2024-05-24T03:53:57Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。