論文の概要: Factored Value Functions for Graph-Based Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.11401v1
- Date: Fri, 16 Jan 2026 16:11:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.548648
- Title: Factored Value Functions for Graph-Based Multi-Agent Reinforcement Learning
- Title(参考訳): グラフに基づくマルチエージェント強化学習のための因子値関数
- Authors: Ahmed Rashwan, Keith Briggs, Chris Budd, Lisa Kreusser,
- Abstract要約: 信用割当はマルチエージェント強化学習(MARL)における中核的課題である
DVF(Diffusion Value Function)は、時間的割引と空間減衰で影響グラフ上の報酬を拡散することにより、各エージェントに値成分を割り当てるGMDPの因子値関数である。
DVF は well-defined であり、ベルマンの不動点を許容し、平均値を用いてグローバル割引値を分解することを示す。
本稿では,Diffusion A2C (DA2C) と疎メッセージパッシングアクタであるLearned DropEdge GNN (LD-GNN) を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Credit assignment is a core challenge in multi-agent reinforcement learning (MARL), especially in large-scale systems with structured, local interactions. Graph-based Markov decision processes (GMDPs) capture such settings via an influence graph, but standard critics are poorly aligned with this structure: global value functions provide weak per-agent learning signals, while existing local constructions can be difficult to estimate and ill-behaved in infinite-horizon settings. We introduce the Diffusion Value Function (DVF), a factored value function for GMDPs that assigns to each agent a value component by diffusing rewards over the influence graph with temporal discounting and spatial attenuation. We show that DVF is well-defined, admits a Bellman fixed point, and decomposes the global discounted value via an averaging property. DVF can be used as a drop-in critic in standard RL algorithms and estimated scalably with graph neural networks. Building on DVF, we propose Diffusion A2C (DA2C) and a sparse message-passing actor, Learned DropEdge GNN (LD-GNN), for learning decentralised algorithms under communication costs. Across the firefighting benchmark and three distributed computation tasks (vector graph colouring and two transmit power optimisation problems), DA2C consistently outperforms local and global critic baselines, improving average reward by up to 11%.
- Abstract(参考訳): 信用割当はマルチエージェント強化学習(MARL)における中核的な課題であり、特に構造化された局所的な相互作用を持つ大規模システムにおいて重要である。
グラフベースのマルコフ決定プロセス(GMDP)は、影響グラフを通じてそのような設定をキャプチャするが、標準的な批評家はこの構造と不一致である。
DVF(Diffusion Value Function)は、時間的割引と空間減衰で影響グラフ上の報酬を拡散することにより、各エージェントに値成分を割り当てるGMDPの因子値関数である。
DVF は well-defined であり、ベルマンの不動点を許容し、平均値を用いてグローバル割引値を分解することを示す。
DVFは、標準のRLアルゴリズムにおいてドロップイン批評家として使用することができ、グラフニューラルネットワークで計算可能と見積もることができる。
DVFをベースとして,Diffusion A2C (DA2C) と疎メッセージパッシングアクタであるLearted DropEdge GNN (LD-GNN) を提案し,通信コストで分散アルゴリズムを学習する。
ファイアファイティングベンチマークと3つの分散計算タスク(ベクターグラフの色付けと2つの送信電力最適化問題)を通して、DA2Cは、局所的およびグローバルな批評家ベースラインを一貫して上回り、平均報酬を最大11%向上させる。
関連論文リスト
- Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - CEM-FBGTinyDet: Context-Enhanced Foreground Balance with Gradient Tuning for tiny Objects [2.321156185872456]
マルチスケール機能拡張と適応最適化を統合した新しいアーキテクチャであるE-FPN-BSを提案する。
第一に、私たちのContext Enhancement Module(CEM)は、効率的なグローバルな融合のために高レベルな特徴を整列し、圧縮するためにデュアルブランチ処理を採用している。
第2に、フォアグラウンド-バックグラウンド分離モジュール(FBSM)は、識別領域を動的に増幅する空間ゲーティングマスクを生成する。
論文 参考訳(メタデータ) (2025-06-11T16:13:38Z) - Learning Robust Heterogeneous Graph Representations via Contrastive-Reconstruction under Sparse Semantics [13.555683316315683]
マスケードオートエンコーダ(MAE)とコントラスト学習(CL)はグラフ自己教師学習において2つの重要なパラダイムである。
本稿ではヘテロジニアスグラフのための新しい二チャンネル自己教師型学習フレームワークHetCRFを紹介する。
HetCRFは2段階のアグリゲーション戦略を用いて埋め込みセマンティクスを適応し、MAEとCLの両方と互換性がある。
論文 参考訳(メタデータ) (2025-06-07T06:35:42Z) - ScaleGNN: Towards Scalable Graph Neural Networks via Adaptive High-order Neighboring Feature Fusion [73.85920403511706]
スケーラブルで効果的なグラフ学習のためのマルチホップノード機能を適応的に融合する新しいフレームワークであるScaleGNNを提案する。
予測精度と計算効率の両面で,ScaleGNNは最先端のGNNよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-04-22T14:05:11Z) - LASE: Learned Adjacency Spectral Embeddings [9.227991604045416]
グラフ入力から結節隣接スペクトル埋め込み(ASE)を学習する。
LASEは解釈可能で、パラメータ効率が高く、未観測のエッジを持つ入力に対して堅牢である。
LASEレイヤは、Graph Convolutional Network (GCN)と完全に接続されたGraph Attention Network (GAT)モジュールを組み合わせる。
論文 参考訳(メタデータ) (2024-12-23T17:35:19Z) - FedRGL: Robust Federated Graph Learning for Label Noise [5.296582539751589]
Federated Graph Learning(FGL)は、グラフニューラルネットワークに基づく分散機械学習パラダイムである。
本稿では,FedRGLと呼ばれるラベルノイズを用いた頑健なグラフ学習手法を提案する。
FedRGLは、様々なノイズ率、タイプ、クライアント数で12のベースライン手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-11-28T04:37:04Z) - Degree-Conscious Spiking Graph for Cross-Domain Adaptation [51.58506501415558]
Spiking Graph Networks (SGNs) はグラフ分類において大きな可能性を証明している。
DeSGraDA(Degree-Consicious Spiking Graph for Cross-Domain Adaptation)という新しいフレームワークを紹介する。
DeSGraDAは3つのキーコンポーネントを持つドメイン間の一般化を強化する。
論文 参考訳(メタデータ) (2024-10-09T13:45:54Z) - Divide and Contrast: Source-free Domain Adaptation via Adaptive
Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。
DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。
さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文 参考訳(メタデータ) (2022-11-12T09:21:49Z) - Local Augmentation for Graph Neural Networks [78.48812244668017]
本稿では,局所的な部分グラフ構造によりノード特性を向上する局所拡張を提案する。
局所的な拡張に基づいて、プラグイン・アンド・プレイ方式で任意のGNNモデルに適用可能な、LA-GNNという新しいフレームワークをさらに設計する。
論文 参考訳(メタデータ) (2021-09-08T18:10:08Z) - Cross-Domain Facial Expression Recognition: A Unified Evaluation
Benchmark and Adversarial Graph Learning [85.6386289476598]
我々は,クロスドメイン全体的特徴共適応のための新しい逆グラフ表現適応(AGRA)フレームワークを開発した。
我々は,いくつかの一般的なベンチマークで広範囲かつ公平な評価を行い,提案したAGRAフレームワークが従来の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-03T15:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。