論文の概要: Randomness is sometimes necessary for coordination
- arxiv url: http://arxiv.org/abs/2605.06825v1
- Date: Thu, 07 May 2026 18:27:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.541277
- Title: Randomness is sometimes necessary for coordination
- Title(参考訳): 調整にランダム性は時々必要です
- Authors: Rohan Patil, Jai Malegaonkar, Henrik I. Christensen,
- Abstract要約: 完全パラメータ共有は、同種エージェントのための協調型マルチエージェント強化学習(MARL)において標準である。
置換対称性の観測の下では、共有決定論的ポリシーは全てのエージェントに対して同一の作用分布を出力し、役割の分化を不可能にする。
本稿では,各エージェントがタイムステップ毎にスカラー乱数をサンプリングするクロスアテンションアーキテクチャであるDiamond Attentionを提案する。
- 参考スコア(独自算出の注目度): 2.1104538070656087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Full parameter sharing is standard in cooperative multi-agent reinforcement learning (MARL) for homogeneous agents. Under permutation-symmetric observations, however, a shared deterministic policy outputs identical action distributions for every agent, making role differentiation impossible. This failure can theoretically be resolved using symmetry breaking among anonymous identical processors, which requires randomness. We propose Diamond Attention, a cross-attention architecture in which each agent samples a scalar random number per timestep, inducing a transient rank ordering that masks lower-ranked peers from agent-to-agent attention while leaving task attention fully unmasked. This realizes a random-bit coordination protocol in a single broadcast round, and the set-based attention enables zero-shot deployment to teams of different sizes. We evaluate across three regimes that isolate when structured randomness matters. On the perfectly symmetric XOR game, our method achieves $1.0$ success while all deterministic baselines plateau near $0.5$. On control coordination tasks, a policy trained on $N=4$ generalizes zero-shot to $N \in [2,8]$. On SMACLite cross-scenario transfer, we achieve zero-shot transfer where standard baselines cannot transfer due to structural limitations. Furthermore, replacing the structured mask with standard dropout-based randomness results in a 0\% win rate, confirming that protocol-space structure, not stochastic noise, is the operative ingredient. https://anonymous.4open.science/r/randomness-137A/
- Abstract(参考訳): 完全パラメータ共有は、同種エージェントのための協調型マルチエージェント強化学習(MARL)において標準である。
しかし、置換対称性の観測の下では、共有決定論的ポリシーは全てのエージェントに対して同一の作用分布を出力し、役割の分化を不可能にする。
この失敗は、ランダム性を必要とする匿名の同一プロセッサ間の対称性の破れによって理論的に解決できる。
本研究では,各エージェントがタイムステップ毎にスカラーランダム数をサンプリングし,エージェント対エージェントの注意から下位のピアをマスクする過渡ランクを誘導するクロスアテンションアーキテクチャを提案する。
これにより、単一のブロードキャストラウンドにおけるランダムビット調整プロトコルを実現し、セットベースの注目により、異なるサイズのチームへのゼロショットデプロイメントが可能になる。
ランダム性が構造化された場合に分離する3つの体制について評価を行った。
完全対称なXORゲームでは、決定論的ベースラインが0.5ドル近くであるのに対して、我々の手法は1.0$の成功を達成する。
制御調整タスクでは、$N=4$で訓練されたポリシーはゼロショットを$N \in [2,8]$に一般化する。
SMACLiteクロスシナリオ転送では、構造的制約により標準ベースラインの転送が不可能なゼロショット転送を実現する。
さらに、構造化マスクを標準のドロップアウトベースランダムネスに置き換えると、0\%の勝利率となり、確率ノイズではなくプロトコル空間構造が作用成分であることが確認される。
https://anonymous.4open.science/r/randomness-137A/
関連論文リスト
- Adaptation to Intrinsic Dependence in Diffusion Language Models [5.185131234265025]
拡散言語モデル(DLM)は自己回帰(AR)アプローチに代わる有望な代替手段として登場した。
対象データ分布の(未知の)依存構造に適応するDLMの分布に依存しないアンマスキングスケジュールを提案する。
この結果は, 先行収束理論を著しく改善し, 低複雑さ分布に対する相当なサンプリング加速を得た。
論文 参考訳(メタデータ) (2026-02-23T18:41:34Z) - Mean-Field Reinforcement Learning without Synchrony [11.907264672363718]
平均場強化学習は、各エージェントの他者への依存を1つの要約統計量(平均行動)に減らし、大集団にスケールする。
既存のMF-RL理論は平均作用に基づいて構築され、$に拡張されない。
人口分布のスクラッチから$$$のテンポラル平均場(Temporal Mean Field)フレームワークを構築し,全同期から純粋にシーケンシャルな意思決定までの全スペクトルを網羅した。
論文 参考訳(メタデータ) (2026-02-20T06:42:08Z) - See Less, Drive Better: Generalizable End-to-End Autonomous Driving via Foundation Models Stochastic Patch Selection [51.59559387222532]
エンドツーエンド自動運転の最近の進歩は、パッチアライメント機能で訓練されたポリシーが、アウト・オブ・ディストリビューション(OOD)よりも一般化していることを示している。
我々は、より堅牢で、一般化可能で、効率的な学習ポリシーのためのシンプルで効果的なアプローチである2.4-Patch-Selection(SPS)を提案する。
論文 参考訳(メタデータ) (2026-01-15T18:58:33Z) - Batched Stochastic Matching Bandits [43.651070266360954]
本稿では,MNL選択モデルに基づくマッチングのための新しい帯域幅フレームワークを提案する。
私たちの設定では、一方の$N$エージェントは他方の$K$アームに割り当てられます。
目的は、すべてのエージェントで成功した試合から累積収入を最大化することで、後悔を最小限に抑えることである。
論文 参考訳(メタデータ) (2025-09-04T13:16:32Z) - From Continual Learning to SGD and Back: Better Rates for Continual Linear Models [50.11453013647086]
以前見られたタスクの損失を、$k$の繰り返しの後、忘れること、すなわち、分析する。
実現可能な最小二乗の設定において、新しい最上界を創出する。
我々は、タスクを繰り返しないランダム化だけで、十分に長いタスクシーケンスで破滅的な事態を防げることを初めて証明した。
論文 参考訳(メタデータ) (2025-04-06T18:39:45Z) - Cooperative Multi-Agent Constrained Stochastic Linear Bandits [2.099922236065961]
N$エージェントのネットワークがローカルに通信し、期待されるコストを所定の閾値$tau$で保持しながら、全体的な後悔を最小限に抑える。
我々は、textitMA-OPLBと呼ばれる安全な分散上信頼度有界アルゴリズムを提案し、そのT$ラウンドの後悔に基づく高い確率を確立する。
我々の後悔の限界は次数$ MathcalOleft(fracdtau-c_0fraclog(NT)2sqrtNsqrtTlog (1/|lambda|)であることを示す。
論文 参考訳(メタデータ) (2024-10-22T19:34:53Z) - Stochastic Approximation Approaches to Group Distributionally Robust Optimization and Beyond [89.72693227960274]
本稿では,グループ分散ロバスト最適化 (GDRO) を,$m$以上の異なる分布をうまく処理するモデルを学習する目的で検討する。
各ラウンドのサンプル数を$m$から1に抑えるため、GDROを2人でプレイするゲームとして、一方のプレイヤーが実行し、他方のプレイヤーが非公開のマルチアームバンディットのオンラインアルゴリズムを実行する。
第2のシナリオでは、最大リスクではなく、平均的最上位k$リスクを最適化し、分散の影響を軽減することを提案する。
論文 参考訳(メタデータ) (2023-02-18T09:24:15Z) - Probably Anytime-Safe Stochastic Combinatorial Semi-Bandits [81.60136088841948]
本稿では,時間軸における後悔を最小限に抑えるアルゴリズムを提案する。
提案アルゴリズムは,レコメンデーションシステムや交通機関などの分野に適用可能である。
論文 参考訳(メタデータ) (2023-01-31T03:49:00Z) - Collaborative Multi-agent Stochastic Linear Bandits [28.268809091816287]
我々は,ネットワークを構成するN$エージェントが局所的に通信し,全体的な後悔を最小限に抑える,協調的マルチエージェント線形帯域設定について検討する。
すべてのエージェントは、プレイされたアクションの対応する報酬を観察し、加速されたコンセンサス手順を使用して、すべてのエージェントが取得した報酬の平均の見積もりを計算する。
論文 参考訳(メタデータ) (2022-05-12T19:46:35Z) - Cooperative Online Learning in Stochastic and Adversarial MDPs [50.62439652257712]
我々は、協調的オンライン学習と敵対的マルコフ決定過程(MDP)について研究する。
各エピソードでは、$m$エージェントが同時にMDPと対話し、個人の後悔を最小限に抑えるために情報を共有する。
協調強化学習(RL)を非フレッシュランダム性, あるいは敵対的MDPで検討したのは, 初めてである。
論文 参考訳(メタデータ) (2022-01-31T12:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。