論文の概要: Agent-GSPO: Communication-Efficient Multi-Agent Systems via Group Sequence Policy Optimization
- arxiv url: http://arxiv.org/abs/2510.22477v1
- Date: Sun, 26 Oct 2025 01:27:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 17:41:21.968431
- Title: Agent-GSPO: Communication-Efficient Multi-Agent Systems via Group Sequence Policy Optimization
- Title(参考訳): Agent-GSPO:グループシーケンスポリシー最適化による通信効率の良いマルチエージェントシステム
- Authors: Yijia Fan, Jusheng Zhang, Jing Yang, Keze Wang,
- Abstract要約: シーケンスレベルの強化学習を用いてトークン経済を直接最適化するフレームワークである textbfAgent-GSPO を紹介する。
Agent-GSPOは、新しい最先端のパフォーマンスを達成するだけでなく、既存のメソッドのトークン消費のごく一部で実現している。
- 参考スコア(独自算出の注目度): 13.596054051045646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To combat the prohibitive communication costs of ``free-for-all" multi-agent systems (MAS), we introduce \textbf{Agent-GSPO}, a framework that directly optimizes for token economy using sequence-level reinforcement learning. Agent-GSPO leverages the stable and memory-efficient Group Sequence Policy Optimization (GSPO) algorithm to train agents on a communication-aware reward that explicitly penalizes verbosity. Across seven reasoning benchmarks, Agent-GSPO not only achieves new state-of-the-art performance but does so with a fraction of the token consumption of existing methods. By fostering emergent strategies like ``strategic silence," our approach provides a practical blueprint for developing scalable and economically viable multi-agent systems.
- Abstract(参考訳): フリー・フォー・オール」マルチエージェントシステム(MAS)の禁止通信コストに対抗するため,シーケンスレベルの強化学習を用いてトークン経済を直接最適化するフレームワークである \textbf{Agent-GSPO} を導入する。
Agent-GSPOは、安定的でメモリ効率のよいGroup Sequence Policy Optimization (GSPO)アルゴリズムを利用して、冗長性を明確に罰するコミュニケーション対応報酬でエージェントを訓練する。
7つの推論ベンチマークで、Agent-GSPOは新たな最先端のパフォーマンスを達成するだけでなく、既存のメソッドのトークン消費のごく一部で実現している。
のような創発的な戦略を育むことで、我々のアプローチはスケーラブルで経済的に実行可能なマルチエージェントシステムを開発するための実践的な青写真を提供する。
関連論文リスト
- Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。
既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。
ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文 参考訳(メタデータ) (2025-10-06T10:44:04Z) - Stochastic Self-Organization in Multi-Agent Systems [28.70691568233268]
LLM(Large Language Models)に基づくマルチエージェントシステム(MAS)は、単一のLLMの範囲を超えているタスクを解く可能性がある。
通信をオンザフライで適応する応答条件付きフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-01T09:08:04Z) - AgentInit: Initializing LLM-based Multi-Agent Systems via Diversity and Expertise Orchestration for Effective and Efficient Collaboration [35.78052021610084]
我々はエージェントチームの構造を最適化することを目的としたAgentInitを提案する。
AgentInitはエージェント生成中のエージェント間のマルチラウンドインタラクションとリフレクションに加えて、自然言語からフォーマットメカニズムも組み込んでいる。
論文 参考訳(メタデータ) (2025-09-23T16:58:54Z) - AnyMAC: Cascading Flexible Multi-Agent Collaboration via Next-Agent Prediction [70.60422261117816]
本稿では,グラフ構造ではなくシーケンシャル構造を用いて,マルチエージェント協調を再考するフレームワークを提案する。
提案手法は,(1)各ステップで最も適したエージェントロールを選択するNext-Agent Predictionと,(2)各エージェントが前ステップから関連する情報にアクセスできるようにするNext-Context Selectionの2つの重要な方向に焦点を当てる。
論文 参考訳(メタデータ) (2025-06-21T18:34:43Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Cut the Crap: An Economical Communication Pipeline for LLM-based Multi-Agent Systems [42.137278756052595]
$texttAgentPrune$は、メインストリームのマルチエージェントシステムにシームレスに統合できる。
textbf(I)は、既存のマルチエージェントフレームワークとシームレスに統合され、28.1%sim72.8%downarrow$トークンの削減を行う。
textbf(III)は2種類のエージェントベースの敵攻撃に対して3.5%sim10.8%uparrow$パフォーマンス向上で防御に成功した。
論文 参考訳(メタデータ) (2024-10-03T14:14:31Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。