論文の概要: Hierarchical Deep Counterfactual Regret Minimization
- arxiv url: http://arxiv.org/abs/2305.17327v2
- Date: Tue, 26 Sep 2023 13:54:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 17:44:36.469181
- Title: Hierarchical Deep Counterfactual Regret Minimization
- Title(参考訳): 階層型ディープデファクトレグレスト最小化
- Authors: Jiayu Chen, Tian Lan, Vaneet Aggarwal
- Abstract要約: 本稿では,大規模な状態空間や深部ゲームツリーを含むタスクにおいて,学習効率を向上させる革新的な手法であるDeep CFRの最初の階層バージョンを紹介する。
HDCFRのこれまでの研究よりも顕著な利点は、事前に定義された(人間的な)専門知識による学習の促進と、同様のタスクに移行可能なスキルの獲得を促進する能力である。
- 参考スコア(独自算出の注目度): 53.86223883060367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imperfect Information Games (IIGs) offer robust models for scenarios where
decision-makers face uncertainty or lack complete information. Counterfactual
Regret Minimization (CFR) has been one of the most successful family of
algorithms for tackling IIGs. The integration of skill-based strategy learning
with CFR could potentially mirror more human-like decision-making process and
enhance the learning performance for complex IIGs. It enables the learning of a
hierarchical strategy, wherein low-level components represent skills for
solving subgames and the high-level component manages the transition between
skills. In this paper, we introduce the first hierarchical version of Deep CFR
(HDCFR), an innovative method that boosts learning efficiency in tasks
involving extensively large state spaces and deep game trees. A notable
advantage of HDCFR over previous works is its ability to facilitate learning
with predefined (human) expertise and foster the acquisition of skills that can
be transferred to similar tasks. To achieve this, we initially construct our
algorithm on a tabular setting, encompassing hierarchical CFR updating rules
and a variance-reduced Monte Carlo sampling extension. Notably, we offer the
theoretical justifications, including the convergence rate of the proposed
updating rule, the unbiasedness of the Monte Carlo regret estimator, and ideal
criteria for effective variance reduction. Then, we employ neural networks as
function approximators and develop deep learning objectives to adapt our
proposed algorithms for large-scale tasks, while maintaining the theoretical
support.
- Abstract(参考訳): 不完全な情報ゲーム(IIG)は、意思決定者が不確実性に直面したり、完全な情報を欠いているシナリオに対して堅牢なモデルを提供する。
Counterfactual Regret Minimization (CFR)は、IIGに対処するための最も成功したアルゴリズムの1つである。
CFRとスキルベースの戦略学習を統合することで、より人間的な意思決定プロセスが反映され、複雑なIIGの学習性能が向上する可能性がある。
階層的な戦略の学習を可能にし、低レベルのコンポーネントはサブゲーム問題を解決するスキルを表し、高レベルのコンポーネントはスキル間の遷移を管理する。
本稿では,大規模な状態空間と深部ゲームツリーを含むタスクにおいて,学習効率を高める革新的な手法であるDeep CFR (HDCFR) の最初の階層バージョンを紹介する。
以前の作品よりもhdcfrの特筆すべきアドバンテージは、事前定義された(人間)専門知識で学習を促進し、同様のタスクに移行できるスキルの獲得を促進する能力である。
そこで我々はまず,階層的CFR更新規則と分散還元モンテカルロサンプリング拡張を包含した表型設定のアルゴリズムを構築した。
特に,提案する更新規則の収束率,モンテカルロ後悔推定器の不偏性,効果的な分散低減のための理想的な基準など,理論的正当性を提供する。
そして,ニューラルネットワークを関数近似器として使用し,提案したアルゴリズムを大規模タスクに適用し,理論的支援を維持しながら深層学習の目標を策定する。
関連論文リスト
- Super Level Sets and Exponential Decay: A Synergistic Approach to Stable Neural Network Training [0.0]
指数減衰と高度な反オーバーフィッティング戦略を統合する動的学習率アルゴリズムを開発した。
適応学習率の影響を受けて、損失関数の超レベル集合が常に連結であることを証明する。
論文 参考訳(メタデータ) (2024-09-25T09:27:17Z) - An Efficient Learning-based Solver Comparable to Metaheuristics for the
Capacitated Arc Routing Problem [67.92544792239086]
我々は,高度メタヒューリスティックスとのギャップを著しく狭めるため,NNベースの解法を導入する。
まず,方向対応型注意モデル(DaAM)を提案する。
第2に、教師付き事前学習を伴い、堅牢な初期方針を確立するための教師付き強化学習スキームを設計する。
論文 参考訳(メタデータ) (2024-03-11T02:17:42Z) - Language-guided Skill Learning with Temporal Variational Inference [38.733622157088035]
専門家によるデモンストレーションからスキル発見のためのアルゴリズムを提案する。
以上の結果から,本手法を応用したエージェントが,学習の促進に役立つスキルを発見できることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T07:19:23Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Hierarchically Structured Task-Agnostic Continual Learning [0.0]
本研究では,連続学習のタスク非依存的な視点を取り入れ,階層的情報理論の最適性原理を考案する。
我々は,情報処理経路の集合を作成することで,忘れを緩和する,Mixture-of-Variational-Experts層と呼ばれるニューラルネットワーク層を提案する。
既存の連続学習アルゴリズムのようにタスク固有の知識を必要としない。
論文 参考訳(メタデータ) (2022-11-14T19:53:15Z) - Neuroevolution is a Competitive Alternative to Reinforcement Learning
for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。
品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:06:39Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。
教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文 参考訳(メタデータ) (2021-10-06T13:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。