論文の概要: Training Generalizable Collaborative Agents via Strategic Risk Aversion
- arxiv url: http://arxiv.org/abs/2602.21515v1
- Date: Wed, 25 Feb 2026 03:06:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.681133
- Title: Training Generalizable Collaborative Agents via Strategic Risk Aversion
- Title(参考訳): 戦略的リスク回避による総合的協調エージェントの訓練
- Authors: Chengrui Qu, Yizhou Zhang, Nicholas Lanzetti, Eric Mazumdar,
- Abstract要約: 我々は、戦略的リスク回避の概念を考察し、それを原則的帰納的バイアスとして、見知らぬパートナーとの一般化可能な協力のために解釈する。
我々は,戦略リスク回避を標準方針最適化手法に統合するマルチエージェント強化学習(MARL)アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 12.848024214330236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many emerging agentic paradigms require agents to collaborate with one another (or people) to achieve shared goals. Unfortunately, existing approaches to learning policies for such collaborative problems produce brittle solutions that fail when paired with new partners. We attribute these failures to a combination of free-riding during training and a lack of strategic robustness. To address these problems, we study the concept of strategic risk aversion and interpret it as a principled inductive bias for generalizable cooperation with unseen partners. While strategically risk-averse players are robust to deviations in their partner's behavior by design, we show that, in collaborative games, they also (1) can have better equilibrium outcomes than those at classical game-theoretic concepts like Nash, and (2) exhibit less or no free-riding. Inspired by these insights, we develop a multi-agent reinforcement learning (MARL) algorithm that integrates strategic risk aversion into standard policy optimization methods. Our empirical results across collaborative benchmarks (including an LLM collaboration task) validate our theory and demonstrate that our approach consistently achieves reliable collaboration with heterogeneous and previously unseen partners across collaborative tasks.
- Abstract(参考訳): 多くの新興エージェントパラダイムでは、エージェントが共通の目標を達成するために互いに(あるいは人々)協力する必要がある。
残念ながら、このような協調的な問題に対する学習ポリシーへの既存のアプローチは、新しいパートナーとペアになって失敗する不安定なソリューションを生み出します。
これらの失敗は、トレーニング中のフリーライドと戦略的堅牢性の欠如によるものだと考えています。
これらの問題に対処するために、戦略的リスク回避の概念を考察し、それを原則的帰納的バイアスとして解釈し、目に見えないパートナーと一般化可能な協調を行う。
戦略的にリスク・アバースなプレイヤーは、パートナーの行動に設計によって逸脱しがちであるが、協調ゲームにおいては、(1)ナッシュのような古典的なゲーム理論の概念よりも均衡性が良いことを示し、(2)フリーライディングは少ないか、あるいは無いかを示す。
これらの知見に触発されて,戦略リスク回避を標準方針最適化手法に統合するマルチエージェント強化学習(MARL)アルゴリズムを開発した。
LLMコラボレーティブタスクを含む)協調ベンチマークによる実証的な結果から、我々のアプローチが不均一で以前は目に見えないパートナーとのコラボレーティブなコラボレーションを一貫して達成していることが証明された。
関連論文リスト
- Evaluating Generalization Capabilities of LLM-Based Agents in Mixed-Motive Scenarios Using Concordia [100.74015791021044]
大規模言語モデル(LLM)エージェントは、社会的相互作用の素晴らしい能力を実証している。
既存の評価手法は、これらの能力がいかに新しい社会的状況に一般化するかを測ることに失敗する。
我々は,NeurIPS 2024 Concordia Contestで,エージェントが相互利得を達成する能力について評価した経験的結果を示す。
論文 参考訳(メタデータ) (2025-12-03T00:11:05Z) - Adaptively Coordinating with Novel Partners via Learned Latent Strategies [19.014669675808133]
我々は、リアルタイムに幅広いパートナー戦略を表現、分類、適応する戦略条件付き協調作業フレームワークを導入する。
提案手法は,エージェント軌道データから潜在戦略空間を学習するために,変分オートエンコーダを用いて戦略を符号化する。
我々は,インタラクション中のパートナーの戦略推定を動的に推論し,調整する固定共有後悔最小化アルゴリズムを活用する。
論文 参考訳(メタデータ) (2025-11-16T19:45:35Z) - Modeling Latent Partner Strategies for Adaptive Zero-Shot Human-Agent Collaboration [8.829018359718086]
我々は、様々なパートナー戦略を表現、分類、適応する戦略条件付き協調作業フレームワークであるTALENTSを紹介した。
提案手法は変分オートエンコーダを用いて軌道データから潜在戦略空間を学習する。
未確認のパートナーに適応するために、我々は固定共有後悔最小化アルゴリズムを利用する。
論文 参考訳(メタデータ) (2025-07-07T17:53:13Z) - Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games [87.5673042805229]
大規模言語モデルは、アライメント、堅牢性、安全なデプロイメントを保証する上で、いかに自己関心と集合的幸福のバランスをとるかが重要な課題である。
我々は、行動経済学から制度的に選択した公共財ゲームに適応し、異なるLLMがいかに社会的ジレンマをナビゲートするかを観察することができる。
意外なことに、o1シリーズのようなLCMの推論は、協調にかなり苦労している。
論文 参考訳(メタデータ) (2025-06-29T15:02:47Z) - Cross-environment Cooperation Enables Zero-shot Multi-agent Coordination [37.90912492084769]
本研究では,単一パートナーによる環境分布の強化学習が,一般的な協調学習の学習にどのように役立つかを検討する。
何十億もの解決可能な調整課題を生み出すJaxベースの手続き型ジェネレータを2つ導入する。
本研究は,様々なシナリオにまたがって協調学習を行うことによって,エージェントが一般的な規範を発達させることを示唆している。
論文 参考訳(メタデータ) (2025-04-17T07:41:25Z) - Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。
本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。
我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文 参考訳(メタデータ) (2024-10-24T10:48:42Z) - Tackling Cooperative Incompatibility for Zero-Shot Human-AI Coordination [36.33334853998621]
協調的オープンエンド・ラーニング(COLE)フレームワークを導入し,学習における協調的非互換性を解決する。
COLEは、グラフ理論の観点を用いて、2人のプレイヤーと協調ゲームにおけるオープンエンド目標を定式化し、各戦略の協調能力を評価し、特定する。
我々は,COLEが理論的および経験的分析から協調的不整合性を効果的に克服できることを示した。
論文 参考訳(メタデータ) (2023-06-05T16:51:38Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - On the Critical Role of Conventions in Adaptive Human-AI Collaboration [73.21967490610142]
規則依存表現と規則依存表現を区別する学習フレームワークを提案する。
複雑性が異なる3つの共同作業に対するアプローチを実験的に検証します。
論文 参考訳(メタデータ) (2021-04-07T02:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。