論文の概要: Learning Reward Functions for Cooperative Resilience in Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2601.22292v1
- Date: Thu, 29 Jan 2026 20:10:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.045942
- Title: Learning Reward Functions for Cooperative Resilience in Multi-Agent Systems
- Title(参考訳): 多エージェントシステムにおける協調レジリエンスのためのリワード関数の学習
- Authors: Manuela Chacon-Chamorro, Luis Felipe Giraldo, Nicanor Quijano,
- Abstract要約: この研究は、協力的なレジリエンス、破壊に直面したエージェントの予測、抵抗、回復、変換能力に焦点を当てている。
本研究では,報酬関数設計が混合モチベーションにおけるレジリエンスにどのように影響するかを考察し,報酬関数をランク付けされた軌道から学習する新しい枠組みを提案する。
- 参考スコア(独自算出の注目度): 2.2090506971647144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent systems often operate in dynamic and uncertain environments, where agents must not only pursue individual goals but also safeguard collective functionality. This challenge is especially acute in mixed-motive multi-agent systems. This work focuses on cooperative resilience, the ability of agents to anticipate, resist, recover, and transform in the face of disruptions, a critical yet underexplored property in Multi-Agent Reinforcement Learning. We study how reward function design influences resilience in mixed-motive settings and introduce a novel framework that learns reward functions from ranked trajectories, guided by a cooperative resilience metric. Agents are trained in a suite of social dilemma environments using three reward strategies: i) traditional individual reward; ii) resilience-inferred reward; and iii) hybrid that balance both. We explore three reward parameterizations-linear models, hand-crafted features, and neural networks, and employ two preference-based learning algorithms to infer rewards from behavioral rankings. Our results demonstrate that hybrid strategy significantly improve robustness under disruptions without degrading task performance and reduce catastrophic outcomes like resource overuse. These findings underscore the importance of reward design in fostering resilient cooperation, and represent a step toward developing robust multi-agent systems capable of sustaining cooperation in uncertain environments.
- Abstract(参考訳): マルチエージェントシステムは動的で不確実な環境で運用されることが多く、エージェントは個々の目標を追求するだけでなく、集団機能の保護も必要である。
この課題は、特に混合モチベーション型マルチエージェントシステムにおいて顕著である。
この研究は、協力的レジリエンス、エージェントが破壊に直面して予測し、抵抗し、回復し、変革する能力、そしてマルチエージェント強化学習における重要で未解明の性質に焦点を当てている。
本研究では,報酬関数設計が混合モチベーション環境におけるレジリエンスにどのように影響するかを考察し,協調的なレジリエンス指標によって導かれる,ランク付けされた軌道から報酬関数を学習する新しい枠組みを導入する。
エージェントは3つの報酬戦略を用いて、社会ジレンマ環境で訓練される。
一 従来の個人報酬
二 レジリエンスを考慮に入れない報酬
三 両者のバランスをとるハイブリッド
我々は,3つの報酬パラメータ化モデル,手作り特徴,ニューラルネットワークについて検討し,行動ランキングから報酬を推定するために2つの好みに基づく学習アルゴリズムを用いる。
以上の結果から,ハイブリッド戦略はタスク性能を低下させることなく破壊下での堅牢性を著しく向上し,資源過剰による壊滅的な結果の低減を図っている。
これらの知見は、レジリエントな協力を促進する上での報酬設計の重要性を浮き彫りにし、不確実な環境での協力を持続できる堅牢なマルチエージェントシステムの開発に向けた一歩である。
関連論文リスト
- Decoding Rewards in Competitive Games: Inverse Game Theory with Entropy Regularization [52.74762030521324]
本稿では,観察行動から報酬関数を学習するための新しいアルゴリズムを提案する。
我々は,アルゴリズムの信頼性とサンプル効率について,強力な理論的保証を提供する。
論文 参考訳(メタデータ) (2026-01-19T04:12:51Z) - ResMAS: Resilience Optimization in LLM-based Multi-agent Systems [37.355345383912756]
大規模言語モデルに基づくマルチエージェントシステム(LLMベースMAS)
LLMベースのMASは一般的に異なるデバイスや環境に分散しており、エージェント障害などの摂動に弱い。
摂動下でのMASのレジリエンスについて検討し、通信トポロジと迅速な設計の両方がシステムのレジリエンスに大きく影響していることを見出した。
論文 参考訳(メタデータ) (2026-01-08T08:03:37Z) - CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards [80.78748457530718]
自己進化(Self-evolution)は、大規模言語モデル(LLM)ベースのエージェントが事前トレーニング後の能力を継続的に改善できるようにする上で、中心的な研究トピックである。
エージェントがエージェント間相互作用から学習することで自律的に改善できる新しいフレームワークであるCo-Evolving Multi-Agent Systems (CoMAS)を紹介する。
論文 参考訳(メタデータ) (2025-10-09T17:50:26Z) - Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards [1.179778723980276]
MARL(Multi-agent Reinforcement Learning)は、シーケンシャルな意思決定と制御タスクの鍵となるフレームワークである。
これらのシステムを現実のシナリオに展開するには、分散トレーニング、多様なエージェントセット、そして頻繁な環境報酬信号から学ぶ必要がある。
我々は,新しいグラフニューラルネットワーク(GNN)に基づく本質的なモチベーションを利用して,異種エージェントポリシーの学習を容易にするCoHetアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-12T21:38:40Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Joint Intrinsic Motivation for Coordinated Exploration in Multi-Agent
Deep Reinforcement Learning [0.0]
本稿では,エージェントが一括して斬新な行動を示すような報奨戦略を提案する。
ジムは連続した環境で機能するように設計されたノベルティの集中的な尺度に基づいて共同軌道に報いる。
その結果、最適戦略が高レベルの調整を必要とするタスクの解決には、共同探索が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T13:02:00Z) - Innate-Values-driven Reinforcement Learning based Cooperative Multi-Agent Cognitive Modeling [1.8220718426493654]
本稿では,個別の選好角度から固有値強化学習アーキテクチャを提案する。
異なるStarCraft Multi-Agent Challenge設定でMulti-AgentL Actor-Critic Modelを検証した。
論文 参考訳(メタデータ) (2024-01-10T22:51:10Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Credit-cognisant reinforcement learning for multi-agent cooperation [0.0]
エージェントは,その行動が環境および共同エージェントに与える影響を知覚することができる。
これらの経験を操り、それらに含まれる報酬を構成することで、すべてのエージェントが受け取る報酬を同一のアクションシーケンスに含めることで、独立した深層Q-ラーニングの性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2022-11-18T09:00:25Z) - Enhancing Adversarial Training with Feature Separability [52.39305978984573]
本稿では,特徴分離性を備えた対人訓練(ATFS)により,クラス内特徴の類似性を向上し,クラス間特徴分散を増大させることができる,新たな対人訓練グラフ(ATG)を提案する。
包括的な実験を通じて、提案したATFSフレームワークがクリーンかつロバストなパフォーマンスを著しく改善することを示した。
論文 参考訳(メタデータ) (2022-05-02T04:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。