論文の概要: Modeling Strong and Human-Like Gameplay with KL-Regularized Search
- arxiv url: http://arxiv.org/abs/2112.07544v1
- Date: Tue, 14 Dec 2021 16:52:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-12-15 18:32:48.498888
- Title: Modeling Strong and Human-Like Gameplay with KL-Regularized Search
- Title(参考訳): KL正規化探索による強・人型ゲームプレイのモデリング
- Authors: Athul Paul Jacob, David J. Wu, Gabriele Farina, Adam Lerer, Anton
Bakhtin, Jacob Andreas, Noam Brown
- Abstract要約: 我々は,多エージェント意思決定問題において,強いが人間的な政策を構築するという課題を考察する。
模倣学習は人間の行動を予測するのに効果的であるが、熟練した人間の強さと一致しない可能性がある。
チェスと囲碁において、モンテカルロ木探索を適用して、KLの分岐に基づく探索ポリシーを模倣学習ポリシーから規則化することで、人間の予測精度が高く、模倣ポリシーよりも強いポリシーを生成することを示す。
- 参考スコア(独自算出の注目度): 64.24339197581769
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the task of building strong but human-like policies in
multi-agent decision-making problems, given examples of human behavior.
Imitation learning is effective at predicting human actions but may not match
the strength of expert humans, while self-play learning and search techniques
(e.g. AlphaZero) lead to strong performance but may produce policies that are
difficult for humans to understand and coordinate with. We show in chess and Go
that regularizing search policies based on the KL divergence from an
imitation-learned policy by applying Monte Carlo tree search produces policies
that have higher human prediction accuracy and are stronger than the imitation
policy. We then introduce a novel regret minimization algorithm that is
regularized based on the KL divergence from an imitation-learned policy, and
show that applying this algorithm to no-press Diplomacy yields a policy that
maintains the same human prediction accuracy as imitation learning while being
substantially stronger.
- Abstract(参考訳): 我々は,人間行動の例として,多エージェント意思決定問題において強いが人間的な政策を構築することを考える。
模倣学習は人間の行動を予測するのに効果的であるが、専門家の人間の強さと一致しない場合もあるが、自己学習と探索技術(例えばAlphaZero)は強いパフォーマンスをもたらすが、人間が理解し、協調することが難しい政策を生み出す可能性がある。
チェスと囲碁では、モンテカルロ木探索を適用して、KLの分岐に基づく探索ポリシーを模倣学習ポリシーから規則化すると、人間の予測精度が高く、模倣ポリシーよりも強いポリシーを生成する。
次に、模倣学習からKLの発散に基づいて正規化される新しい後悔最小化アルゴリズムを導入し、このアルゴリズムを非抑圧外交に適用すると、擬似学習と同じ人間の予測精度を維持しつつ、より強力であることを示す。
関連論文リスト
- Dense Policy: Bidirectional Autoregressive Learning of Actions [51.60428100831717]
本稿では,行動予測における自己回帰的政策の新たなパラダイムを確立するために,Dense Policyと呼ばれる双方向拡張学習手法を提案する。
軽量なエンコーダのみのアーキテクチャを使用して、アクションシーケンスを初期単一フレームからターゲットシーケンスへ粗い方法で反復的に展開する。
実験により、我々の密集した政策は自己回帰学習能力に優れており、既存の全体的生成ポリシーを超越できることが示された。
論文 参考訳(メタデータ) (2025-03-17T14:28:08Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Reinforcement Learning with Human Feedback: Learning Dynamic Choices via
Pessimism [91.52263068880484]
人間のフィードバックを用いたオフライン強化学習(RLHF)について検討する。
我々は、人間の選択によって引き起こされる一連の軌道から、人間の根底にある報酬とMDPの最適政策を学習することを目指している。
RLHFは、大きな状態空間だが人間のフィードバックが限られていること、人間の決定の有界な合理性、政治外の分散シフトなど、さまざまな理由から挑戦されている。
論文 参考訳(メタデータ) (2023-05-29T01:18:39Z) - Imitating Opponent to Win: Adversarial Policy Imitation Learning in
Two-player Competitive Games [0.0]
敵エージェントが採用する敵ポリシーは、ターゲットRLエージェントに影響を及ぼし、マルチエージェント環境では性能が良くない。
既存の研究では、被害者エージェントと対話した経験に基づいて、敵の政策を直接訓練している。
我々は、この欠点を克服する、新しい効果的な対人政策学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-10-30T18:32:02Z) - Human-AI Coordination via Human-Regularized Search and Learning [33.95649252941375]
我々は,ハナビベンチマークにおいて,実際の人間と協調する上で高い性能を達成する3段階のアルゴリズムを開発した。
まず、正規化された検索アルゴリズムと行動クローンを用いて、多様なスキルレベルをキャプチャする優れた人間モデルを作成します。
本手法は, 2人のエージェントと繰り返しプレイすることで, 行動的クローン化基準に対するバニラの最良の応答を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-10-11T03:46:12Z) - Synthesizing Policies That Account For Human Execution Errors Caused By
StateAliasing In Markov Decision Processes [15.450115485745767]
最適なMDPポリシーは、(人間のエージェントのために)悪用されていないが、エラーが少なく実行される他のポリシーよりもはるかに悪い。
本研究では, 国家の不確実性による非政治行動のような不適切な行為(遅延)の可能性をモデル化する枠組みを提案する。
次に、最適なポリシーを見つけるために、分岐と有界なアルゴリズムでバイヒルクライミング(byhill climbing)の最良のポリシーを使用する。
論文 参考訳(メタデータ) (2021-09-15T17:10:46Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z) - School of hard knocks: Curriculum analysis for Pommerman with a fixed
computational budget [4.726777092009554]
Pommermanはハイブリッドな協調/逆のマルチエージェント環境です。
これは強化学習アプローチにとって難しい環境である。
制約付き計算予算10万ゲームにおいて、堅牢で有望なポリシーを学習するためのカリキュラムを開発する。
論文 参考訳(メタデータ) (2021-02-23T15:43:09Z) - Policy Supervectors: General Characterization of Agents by their
Behaviour [18.488655590845163]
訪問状態の分布によってエージェントを特徴付ける政策スーパーベクターを提案する。
ポリシースーパーベクターは、デザイン哲学に関係なくポリシーを特徴づけ、単一のワークステーションマシン上で数千のポリシーにスケールすることができる。
本研究では、強化学習、進化学習、模倣学習における政策の進化を研究することによって、手法の適用性を実証する。
論文 参考訳(メタデータ) (2020-12-02T14:43:16Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。