論文の概要: Multi-agent cooperation through in-context co-player inference
- arxiv url: http://arxiv.org/abs/2602.16301v1
- Date: Wed, 18 Feb 2026 09:31:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.559596
- Title: Multi-agent cooperation through in-context co-player inference
- Title(参考訳): コンテキスト内コプレーヤ推論によるマルチエージェント協調
- Authors: Marissa A. Weis, Maciej Wołczyk, Rajai Nasser, Rif A. Saurous, Blaise Agüera y Arcas, João Sacramento, Alexander Meulemans,
- Abstract要約: シーケンスモデルのコンテキスト内学習能力は、ハードコードされた仮定や明示的な時間スケールの分離を必要とせずに、共プレイヤの学習意識を高めることができることを示す。
この条件下では, 先行作業場におけるゆがみの脆弱性に同定された協調機構が, 相互の整形エマージを自然に駆動することがわかった。
この結果から,コプレーヤの多様性と組み合わさったシーケンスモデルにおける標準的な分散強化学習が協調行動の学習にスケーラブルな経路をもたらすことが示唆された。
- 参考スコア(独自算出の注目度): 44.621248321369514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving cooperation among self-interested agents remains a fundamental challenge in multi-agent reinforcement learning. Recent work showed that mutual cooperation can be induced between "learning-aware" agents that account for and shape the learning dynamics of their co-players. However, existing approaches typically rely on hardcoded, often inconsistent, assumptions about co-player learning rules or enforce a strict separation between "naive learners" updating on fast timescales and "meta-learners" observing these updates. Here, we demonstrate that the in-context learning capabilities of sequence models allow for co-player learning awareness without requiring hardcoded assumptions or explicit timescale separation. We show that training sequence model agents against a diverse distribution of co-players naturally induces in-context best-response strategies, effectively functioning as learning algorithms on the fast intra-episode timescale. We find that the cooperative mechanism identified in prior work-where vulnerability to extortion drives mutual shaping-emerges naturally in this setting: in-context adaptation renders agents vulnerable to extortion, and the resulting mutual pressure to shape the opponent's in-context learning dynamics resolves into the learning of cooperative behavior. Our results suggest that standard decentralized reinforcement learning on sequence models combined with co-player diversity provides a scalable path to learning cooperative behaviors.
- Abstract(参考訳): 自己関心のあるエージェント間の協力を得ることは、マルチエージェント強化学習における根本的な課題である。
近年の研究では、共同プレイヤの学習ダイナミクスを考慮し、形作る「学習意識」エージェント間の相互協力を誘導できることが示されている。
しかし、既存のアプローチは、通常、ハードコードされた、しばしば一貫性のない、共プレイヤの学習規則に関する仮定に依存したり、高速な時間スケールで更新する"ナイーブラーナー"と、これらの更新を観察する"ミータラーナー"の間に厳密な分離を強制する。
ここでは、シーケンスモデルの文脈内学習能力により、ハードコードされた仮定や明示的な時間スケールの分離を必要とせず、共プレイヤの学習意識を高めることを実証する。
本研究では,コプレーヤの多様な分布に対するトレーニングシーケンスモデルエージェントが自然にコンテキスト内ベストレスポンス戦略を誘導し,高速なエピソード内時間スケールでの学習アルゴリズムとして効果的に機能することを示す。
In-context adaptation renders agents vulnerable to extortion, and the result mutual pressure to form the opponent's in-context learning dynamics issolvs the learning of collaborative behavior。
この結果から,コプレーヤの多様性と組み合わさったシーケンスモデルにおける標準的な分散強化学習が協調行動の学習にスケーラブルな経路をもたらすことが示唆された。
関連論文リスト
- Structured Imitation Learning of Interactive Policies through Inverse Games [0.0]
生成的単一エージェントポリシー学習とフレキシブルで表現力のあるゲーム理論構造を組み合わせることで,インタラクティブなポリシのための構造化された模倣学習フレームワークを提案する。
合成5エージェント型ソーシャルナビゲーションタスクの予備的な結果から,本手法は非対話的政策を著しく改善し,50のデモのみを用いて,地上の真理対話的政策と相容れない性能を示した。
論文 参考訳(メタデータ) (2025-11-17T00:42:45Z) - Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。
本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。
我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文 参考訳(メタデータ) (2024-10-24T10:48:42Z) - Decentralized and Lifelong-Adaptive Multi-Agent Collaborative Learning [57.652899266553035]
分散型および生涯適応型多エージェント協調学習は、中央サーバを使わずに複数のエージェント間のコラボレーションを強化することを目的としている。
動的協調グラフを用いた分散マルチエージェント生涯協調学習アルゴリズムであるDeLAMAを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:21:11Z) - Intrinsic fluctuations of reinforcement learning promote cooperation [0.0]
社会的ジレンマの状況における協力は、動物、人間、機械にとって不可欠である。
マルチエージェント・ラーニング・セッティングの個々の要素が協調にどのように寄与するかを実証する。
論文 参考訳(メタデータ) (2022-09-01T09:14:47Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。
相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発
様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文 参考訳(メタデータ) (2020-01-04T17:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。