論文の概要: Reinforcement Learning-Augmented LLM Agents for Collaborative Decision Making and Performance Optimization
- arxiv url: http://arxiv.org/abs/2512.24609v1
- Date: Wed, 31 Dec 2025 03:59:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.56225
- Title: Reinforcement Learning-Augmented LLM Agents for Collaborative Decision Making and Performance Optimization
- Title(参考訳): 協調的意思決定と性能最適化のための強化学習型LLMエージェント
- Authors: Dong Qiu, Duo Xu, Limengxi Yue,
- Abstract要約: 大きな言語モデル(LLM)は言語タスクではうまく機能するが、協調的な認識やマルチエージェント環境でのグローバルパフォーマンスの最適化に苦慮することが多い。
本稿では、分散化された部分観測可能なマルコフ決定プロセス(Dec-POMDP)として協調を定式化し、分散実行による集中的トレーニング(CTDE)を採用する強化学習強化LDMエージェントフレームワークを提案する。
協調的な書き込みとコーディングのベンチマークでは、我々のフレームワークはシングルエージェントベースラインよりも3倍のタスク処理速度、98.7%の構造/スタイルの一貫性、コーディングにおける74.6%のテストパス率を実現している。
- 参考スコア(独自算出の注目度): 4.657699842837075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) perform well in language tasks but often lack collaborative awareness and struggle to optimize global performance in multi-agent settings. We present a reinforcement learning-augmented LLM agent framework that formulates cooperation as a decentralized partially observable Markov decision process (Dec-POMDP) and adopts centralized training with decentralized execution (CTDE). We introduce Group Relative Policy Optimization (GRPO) to jointly optimize agent policies with access to global signals during training, together with a simplified joint reward that balances task quality, speed, and coordination cost. On collaborative writing and coding benchmarks, our framework delivers a 3x increase in task processing speed over single-agent baselines, 98.7% structural/style consistency in writing, and a 74.6% test pass rate in coding. The approach consistently outperforms strong multi-agent LLM baselines and provides a practical path toward reliable collaboration in complex workflows.
- Abstract(参考訳): 大きな言語モデル(LLM)は言語タスクではうまく機能するが、協調的な認識やマルチエージェント環境でのグローバルパフォーマンスの最適化に苦慮することが多い。
本稿では、分散化された部分観測可能なマルコフ決定プロセス(Dec-POMDP)として協調を定式化し、分散実行を伴う集中的トレーニング(CTDE)を採用する強化学習強化LDMエージェントフレームワークを提案する。
グループ相対政策最適化(GRPO)を導入し、訓練中にグローバルな信号にアクセスしてエージェントポリシーを協調的に最適化すると共に、タスク品質、スピード、調整コストのバランスをとる簡易な共同報酬を導入する。
協調的な書き込みとコーディングのベンチマークでは、我々のフレームワークはシングルエージェントベースラインよりも3倍のタスク処理速度、98.7%の構造/スタイルの一貫性、コーディングにおける74.6%のテストパス率を実現しています。
このアプローチは強力なマルチエージェントLLMベースラインを一貫して上回り、複雑なワークフローにおける信頼性の高いコラボレーションへの実践的なパスを提供する。
関連論文リスト
- Parallelism Meets Adaptiveness: Scalable Documents Understanding in Multi-Agent LLM Systems [0.8437187555622164]
大規模言語モデル(LLM)エージェントは、協調的なタスク補完の約束が増していることを示している。
既存のマルチエージェントフレームワークは、静的で固定されたロールと限定的なエージェント間通信に依存していることが多い。
本稿では,3つのコア機構による適応性を実現するための協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-22T22:42:51Z) - Application of LLM Guided Reinforcement Learning in Formation Control with Collision Avoidance [1.1718316049475228]
マルチエージェントシステム(Multi-Agent Systems、MAS)は、個々のエージェントの協調作業を通じて複雑な目的を達成する。
本稿では,効果的な報酬関数を設計する上での課題を克服する新しい枠組みを提案する。
タスクの優先順位付けにおいて,大規模言語モデル(LLM)を付与することにより,オンライン上で動的に調整可能な報酬関数を生成する。
論文 参考訳(メタデータ) (2025-07-22T09:26:00Z) - Cross-Task Experiential Learning on LLM-based Multi-Agent Collaboration [63.90193684394165]
マルチエージェント・クロスタスク体験学習(MAEL)は,LSM駆動型エージェントに明示的なクロスタスク学習と経験蓄積を付与する新しいフレームワークである。
経験的学習フェーズでは、タスク解決ワークフローの各ステップの品質を定量化し、その結果の報酬を記憶する。
推論中、エージェントは、各推論ステップの有効性を高めるために、いくつかの例として、高頻度のタスク関連体験を検索する。
論文 参考訳(メタデータ) (2025-05-29T07:24:37Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。
LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。
本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。
我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文 参考訳(メタデータ) (2025-03-19T17:55:08Z) - A Cascading Cooperative Multi-agent Framework for On-ramp Merging Control Integrating Large Language Models [26.459779380808587]
本稿では,Cascading Cooperative Multi-agent (CCMA) フレームワークを導入し,個別のインタラクションに RL を統合すること,地域協力に微調整のLarge Language Model (LLM) を導入すること,グローバル最適化に報奨関数を導入すること,複雑な運転シナリオをまたいだ意思決定を動的に最適化するRetrieval-augmented Generation メカニズムを提案する。
実験の結果、CCMAは既存のRL法よりも優れており、複雑な運転環境下でのマイクロレベルとマクロレベルの両方のパフォーマンスが大幅に向上していることがわかった。
論文 参考訳(メタデータ) (2025-03-11T09:08:04Z) - MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents [59.825725526176655]
大規模言語モデル(LLM)は、自律的なエージェントとして顕著な能力を示している。
既存のベンチマークでは、単一エージェントタスクにフォーカスするか、狭いドメインに限定されており、マルチエージェントのコーディネーションと競合のダイナミクスを捉えていない。
多様な対話シナリオにまたがってLLMベースのマルチエージェントシステムを評価するためのベンチマークであるMultiAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-03T05:18:50Z) - A Dynamic LLM-Powered Agent Network for Task-Oriented Agent Collaboration [55.35849138235116]
本稿では,様々なタスクやドメインに対する動的コミュニケーション構造において,候補からエージェントのチームを自動的に選択する手法を提案する。
具体的には, LLMを利用したエージェント協調のための動的LLMパワーエージェントネットワーク(textDyLAN$)というフレームワークを構築した。
我々は、コード生成、意思決定、一般的な推論、算術的推論タスクにおいて、適度な計算コストで、DyLANが強力なベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2023-10-03T16:05:48Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。