論文の概要: COLA: Consistent Learning with Opponent-Learning Awareness
- arxiv url: http://arxiv.org/abs/2203.04098v1
- Date: Tue, 8 Mar 2022 14:08:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 18:52:24.798111
- Title: COLA: Consistent Learning with Opponent-Learning Awareness
- Title(参考訳): COLA: 対向学習による一貫性のある学習
- Authors: Timon Willi, Johannes Treutlein, Alistair Letcher, Jakob Foerster
- Abstract要約: 整合性を定式化し、高次LOLAが収束すれば、LOLAの不整合問題を解くことを示す。
また、一貫性のある更新関数でさえSFPを保存しないことを証明し、この欠点はLOLAの不整合に起因するという仮説に矛盾する。
- 参考スコア(独自算出の注目度): 10.460704685958449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning in general-sum games can be unstable and often leads to socially
undesirable, Pareto-dominated outcomes. To mitigate this, Learning with
Opponent-Learning Awareness (LOLA) introduced opponent shaping to this setting,
by accounting for the agent's influence on the anticipated learning steps of
other agents. However, the original LOLA formulation (and follow-up work) is
inconsistent because LOLA models other agents as naive learners rather than
LOLA agents. In previous work, this inconsistency was suggested as a cause of
LOLA's failure to preserve stable fixed points (SFPs). First, we formalize
consistency and show that higher-order LOLA (HOLA) solves LOLA's inconsistency
problem if it converges. Second, we correct a claim made in the literature, by
proving that, contrary to Sch\"afer and Anandkumar (2019), Competitive Gradient
Descent (CGD) does not recover HOLA as a series expansion. Hence, CGD also does
not solve the consistency problem. Third, we propose a new method called
Consistent LOLA (COLA), which learns update functions that are consistent under
mutual opponent shaping. It requires no more than second-order derivatives and
learns consistent update functions even when HOLA fails to converge. However,
we also prove that even consistent update functions do not preserve SFPs,
contradicting the hypothesis that this shortcoming is caused by LOLA's
inconsistency. Finally, in an empirical evaluation on a set of general-sum
games, we find that COLA finds prosocial solutions and that it converges under
a wider range of learning rates than HOLA and LOLA. We support the latter
finding with a theoretical result for a simple game.
- Abstract(参考訳): 一般のサムゲームでの学習は不安定であり、しばしば社会的に望ましくないパレート支配的な結果をもたらす。
これを軽減するために、Learning with Opponent-Learning Awareness (LOLA)は、他のエージェントの期待する学習ステップに対するエージェントの影響を考慮して、相手のシェーピングを導入した。
しかし、オリジナルのLOLAの定式化(および後続の作業)は、LOLAはLOLAエージェントではなく、ナイーブな学習者として他のエージェントをモデル化するため、矛盾しない。
以前の研究では、この矛盾は、安定な固定点(SFP)を維持するLOLAの失敗の原因として示唆された。
まず、一貫性を形式化し、高次LOLA(HOLA)が収束した場合のLOLAの不整合問題を解くことを示す。
第2に,sch\"afer と anandkumar (2019) とは対照的に,競争勾配降下 (cgd) はホラを級数展開として回復しないことを証明し,文献の主張を訂正する。
したがって、CGDは一貫性の問題も解決しない。
第3に,相互に対向するシェーピング下で一貫性のある更新関数を学習するconsistent lola(cola)という新しい手法を提案する。
2階微分しか必要とせず、HOLAが収束しない場合でも一貫した更新関数を学ぶ。
しかし、一貫性のある更新関数でさえSFPを保存せず、この欠点はLOLAの不整合に起因するという仮説に矛盾する。
最後に、一組の一般ゲームに対する実証的な評価において、COLAは社会的な解を見つけ、HOLAやLOLAよりも幅広い学習率で収束することがわかった。
簡単なゲームに対する理論的結果で後者の発見を支援する。
関連論文リスト
- Reconfidencing LLMs from the Grouping Loss Perspective [56.801251926946485]
大規模言語モデル(LLM)は、自信のある音調で幻覚的な答えを生じさせる可能性がある。
近年の研究では、不確実性制御はキャリブレーションを超えて行わなければならないことが示されている。
そこで我々は,MistralとLLaMAの回答に対する信頼度を評価するために,知識ベースから導出した新しい評価データセットを構築した。
論文 参考訳(メタデータ) (2024-02-07T15:40:22Z) - Taming Self-Training for Open-Vocabulary Object Detection [84.26073608562565]
オープン語彙オブジェクト検出(OVD)のための自己学習を目的としたSAS-Detを提案する。
本稿では,標準検出をオープンブランチとクローズブランチに分割するスプリット・アンド・フュージョン(SAF)ヘッドを提案する。
閉集合タスクとは違って,OVDのPL分布は教師モデルによってのみ決定されるため,教師への更新回数を削減し,PL分布の変化頻度を減少させる定期的な更新戦略を導入する。
論文 参考訳(メタデータ) (2023-08-11T23:03:50Z) - A Black-box Approach for Non-stationary Multi-agent Reinforcement Learning [53.83345471268163]
非定常マルチエージェントシステムにおける平衡の学習について検討する。
単エージェント学習へのブラックボックス還元による様々な平衡の検証方法を示す。
論文 参考訳(メタデータ) (2023-06-12T23:48:24Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Playing repeated games with Large Language Models [20.63964279913456]
行動ゲーム理論を用いて,大規模言語モデルの協調行動と協調行動を研究する。
以上の結果から, LLMは一般にこのようなタスクでよく機能し, 持続的な動作シグネチャも発見できることがわかった。
これらの結果はLLMの社会的行動に対する理解を深め、マシンの行動ゲーム理論の道を開いた。
論文 参考訳(メタデータ) (2023-05-26T12:17:59Z) - RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by
Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。
RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。
手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-19T08:02:52Z) - Data-Driven Inverse Reinforcement Learning for Expert-Learner Zero-Sum
Games [30.720112378448285]
逆強化学習をエキスパート-ラーナーインタラクションとして定式化する。
学習者エージェントに対して、専門家や対象エージェントの最適性能意図が不明である。
我々は、専門家や学習者エージェントのダイナミクスの知識を必要としない、政治以外のIRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-01-05T10:35:08Z) - Proximal Learning With Opponent-Learning Awareness [2.9885907027988012]
Learning With Opponent-Learning Awareness (LOLA)はマルチエージェント強化学習アルゴリズムである。
我々は, 近似式を直接用いた新しいアルゴリズム, 近似 LOLA (POLA) を導出する。
このことは、POLAがLOLAよりも確実に相互性に基づく協力を実現することを実証的に示している。
論文 参考訳(メタデータ) (2022-10-18T19:54:17Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。