Fugu-MT 論文翻訳(概要): Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization

論文の概要: Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization

arxiv url: http://arxiv.org/abs/2603.02701v1
Date: Tue, 03 Mar 2026 07:45:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-04 21:38:10.694861
Title: Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization
Title（参考訳）: Graph-GRPO:グループ相対ポリシー最適化によるマルチエージェントトポロジ学習の安定化
Authors: Yueyang Cang, Xiaoteng Zhang, Erlu Zhao, Zehua Ji, Yuhang Liu, Yuchen He, Zhiyuan Ning, Chen Yijun, Wenge Que, Li Shi,
Abstract要約: グループ相対政策最適化を統合した新しいトポロジ最適化フレームワークであるGraph-GRPOを提案する。サンプル群全体にわたる報酬の正規化により,タスク難易度の違いによるノイズを効果的に軽減し,きめ細かなクレジット割り当てを可能にする。
参考スコア（独自算出の注目度）: 7.961090665261694
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Optimizing communication topology is fundamental to the efficiency and effectiveness of Large Language Model (LLM)-based Multi-Agent Systems (MAS). While recent approaches utilize reinforcement learning to dynamically construct task-specific graphs, they typically rely on single-sample policy gradients with absolute rewards (e.g., binary correctness). This paradigm suffers from severe gradient variance and the credit assignment problem: simple queries yield non-informative positive rewards for suboptimal structures, while difficult queries often result in failures that provide no learning signal. To address these challenges, we propose Graph-GRPO, a novel topology optimization framework that integrates Group Relative Policy Optimization. Instead of evaluating a single topology in isolation, Graph-GRPO samples a group of diverse communication graphs for each query and computes the advantage of specific edges based on their relative performance within the group. By normalizing rewards across the sampled group, our method effectively mitigates the noise derived from task difficulty variance and enables fine-grained credit assignment. Extensive experiments on reasoning and code generation benchmarks demonstrate that Graph-GRPO significantly outperforms state-of-the-art baselines, achieving superior training stability and identifying critical communication pathways previously obscured by reward noise.
Abstract（参考訳）: 通信トポロジの最適化は,Large Language Model (LLM) ベースのマルチエージェントシステム (MAS) の効率性と有効性に基礎を置いている。最近のアプローチでは、強化学習を利用してタスク固有のグラフを動的に構築するが、通常は絶対的な報酬(バイナリの正しさなど)を持つ単一サンプルポリシー勾配に依存している。このパラダイムは、厳密な勾配のばらつきと信用割り当ての問題に悩まされる:単純なクエリは、最適でない構造に対して非形式的な正の報酬を与えるが、難しいクエリは、学習信号を提供する失敗をもたらすことが多い。これらの課題に対処するため,グループ相対政策最適化を統合した新しいトポロジ最適化フレームワークであるGraph-GRPOを提案する。 Graph-GRPOは、単一のトポロジを独立して評価する代わりに、クエリ毎に多様な通信グラフのグループをサンプリングし、グループ内の相対的なパフォーマンスに基づいて特定のエッジの利点を計算する。サンプル群全体にわたる報酬の正規化により,タスク難易度の違いによるノイズを効果的に軽減し,きめ細かなクレジット割り当てを可能にする。推論とコード生成ベンチマークに関する大規模な実験により、Graph-GRPOは最先端のベースラインを著しく上回り、優れたトレーニング安定性を達成し、これまで報酬ノイズによって隠されていた重要な通信経路を特定する。

関連論文リスト

MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文参考訳（メタデータ） (2026-01-12T05:02:48Z)
GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。 GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文参考訳（メタデータ） (2026-01-08T18:59:24Z)
DaGRPO: Rectifying Gradient Conflict in Reasoning via Distinctiveness-Aware Group Relative Policy Optimization [20.66452395111739]
識別性を考慮したグループ相対ポリシー最適化(DaGRPO)を提案する。 DaGRPOは,(1)微粒なスコアリングを利用して,低差別性でサンプルペアを動的にマスキングするシーケンスレベルのグラディエント・リクティフィケーション,(2)高品質なアンカーを導入し,課題に対処するためのトレーニング信号の復元を行うオフ・ポリシー・データ・アジュメンテーションという2つのコアメカニズムを取り入れている。詳細な分析により、DaGRPOは勾配の爆発を効果的に軽減し、長鎖推論能力の出現を加速することを確認した。
論文参考訳（メタデータ） (2025-12-06T07:51:36Z)
Repurposing Synthetic Data for Fine-grained Search Agent Supervision [81.95597592711688]
LLMベースの検索エージェントは、エンティティ中心の合成データに基づいてますます訓練されている。一般的なトレーニングメソッドは、このリッチなエンティティ情報を破棄し、代わりにスパースで結果に基づく報酬に依存します。 E-GRPO(Entity-Aware Group Relative Policy Optimization)は、高密度なエンティティ認識報酬関数を定式化する新しいフレームワークである。
論文参考訳（メタデータ） (2025-10-28T17:50:40Z)
Graph Foundation Models: Bridging Language Model Paradigms and Graph Optimization [4.502753947356616]
グラフ構造上の全ての距離に基づく最適化問題を解くことができる最初のフレームワークであるグラフ基礎モデル(GFM)を紹介する。 GFMはグラフの複雑なトポロジカルおよびニューラルルールを内部化し、構造自体の接続を監督信号として扱うことができる。本研究は, グラフ最適化にプリトレイン・トランスファー・フレームワークを適用する新たなパラダイムを確立し, 基礎モデル革新をオペレーション・リサーチに適用するための扉を開く。
論文参考訳（メタデータ） (2025-09-29T04:05:48Z)
COPO: Consistency-Aware Policy Optimization [17.328515578426227]
強化学習は、複雑な問題解決タスクにおける大規模言語モデル(LLM)の推論能力を大幅に向上させた。近年、DeepSeek R1の導入により、ルールベースの報酬をコンピューティングの利点関数の低コストな代替手段として活用し、ポリシー最適化を導くことへの関心が高まっている。本稿では,結果整合性に基づくグローバルな報酬構造を導入する,整合性を考慮したポリシー最適化フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-06T07:05:18Z)
Aggregation-aware MLP: An Unsupervised Approach for Graph Message-passing [10.93155007218297]
AMLP"は、アグリゲーション関数を直接作成することから適応アグリゲーションへとパラダイムをシフトする、教師なしのフレームワークである。提案手法は2つの重要なステップから構成される: まず、高次グルーピング効果を促進するグラフ再構成を利用する。
論文参考訳（メタデータ） (2025-07-27T04:52:55Z)
DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data [65.09939942413651]
本稿では,グループ間不均衡と2つの重要なイノベーションに対処するGRPOの原理的拡張を提案する。ドメイン対応報酬スケーリングは、ドメインの頻度に基づいて最適化を再重み付けすることで周波数バイアスに対処する。難解な報酬のスケーリングは、学習価値を提供する不確実なプロンプトを特定し、優先順位付けするために、プロンプトレベルの自己整合性を活用する。
論文参考訳（メタデータ） (2025-05-21T03:43:29Z)
Adaptive Graph of Thoughts: Test-Time Adaptive Reasoning Unifying Chain, Tree, and Graph Structures [0.0]
本稿では,動的グラフベースの推論フレームワークであるAdaptive Graph of Thoughts (AGoT)を紹介する。 AGoTはテスト時間のみでのLarge Language Models (LLM)推論を強化する。マルチホップ検索,科学的推論,数学的問題解決にまたがる多様なベンチマークに対するアプローチを検証する。
論文参考訳（メタデータ） (2025-02-07T16:54:19Z)
In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-04T03:39:28Z)
Optimal Propagation for Graph Neural Networks [51.08426265813481]
最適グラフ構造を学習するための二段階最適化手法を提案する。また、時間的複雑さをさらに軽減するために、低ランク近似モデルについても検討する。
論文参考訳（メタデータ） (2022-05-06T03:37:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。