論文の概要: Hierarchical Deep Counterfactual Regret Minimization
- arxiv url: http://arxiv.org/abs/2305.17327v1
- Date: Sat, 27 May 2023 02:05:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 20:24:03.092856
- Title: Hierarchical Deep Counterfactual Regret Minimization
- Title(参考訳): 階層型ディープデファクトレグレスト最小化
- Authors: Jiayu Chen, Tian Lan, Vaneet Aggarwal
- Abstract要約: 本稿では,大規模な状態空間や深部ゲームツリーを含むタスクにおいて,学習効率を向上させる革新的な手法であるDeep CFRの最初の階層バージョンを紹介する。
この分野でのHDCFRの顕著な利点は、事前に定義された(人間的な)専門知識による学習の促進と、同様のタスクに適用可能な伝達可能なスキルの獲得を促進する能力である。
- 参考スコア(独自算出の注目度): 44.77500987121531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imperfect Information Games (IIGs) offer robust models for scenarios where
decision-makers face uncertainty or lack complete information. Counterfactual
Regret Minimization (CFR) has been one of the most successful family of
algorithms for tackling IIGs. The integration of skill-based strategy learning
with CFR could potentially enhance learning performance for complex IIGs. For
this, a hierarchical strategy needs to be learnt, wherein low-level components
represent specific skills and the high-level component manages the transition
between skills. This hierarchical approach also enhances interpretability,
helping humans pinpoint scenarios where the agent is struggling and intervene
with targeted expertise. This paper introduces the first hierarchical version
of Deep CFR (HDCFR), an innovative method that boosts learning efficiency in
tasks involving extensively large state spaces and deep game trees. A notable
advantage of HDCFR over previous research in this field is its ability to
facilitate learning with predefined (human) expertise and foster the
acquisition of transferable skills that can be applied to similar tasks. To
achieve this, we initially construct our algorithm on a tabular setting,
encompassing hierarchical CFR updating rules and a variance-reduced Monte-Carlo
sampling extension, and offer its essential theoretical guarantees. Then, to
adapt our algorithm for large-scale applications, we employ neural networks as
function approximators and suggest deep learning objectives that coincide with
those in the tabular setting while maintaining the theoretical outcomes.
- Abstract(参考訳): 不完全な情報ゲーム(IIG)は、意思決定者が不確実性に直面したり、完全な情報を欠いているシナリオに対して堅牢なモデルを提供する。
Counterfactual Regret Minimization (CFR)は、IIGに対処するための最も成功したアルゴリズムの1つである。
CFRとスキルベースの戦略学習の統合により、複雑なIIGの学習性能が向上する可能性がある。
そのためには階層的な戦略を学ぶ必要があり、低レベルのコンポーネントは特定のスキルを表し、高レベルのコンポーネントはスキル間の遷移を管理する。
この階層的アプローチは解釈性も強化し、エージェントが苦労しているシナリオを人間が特定し、ターゲットとする専門知識に介入するのに役立つ。
本稿では,大規模な状態空間と深部ゲームツリーを含むタスクにおいて,学習効率を向上させる革新的な手法であるDeep CFR (HDCFR) の最初の階層バージョンを紹介する。
この分野でのHDCFRの顕著な利点は、事前に定義された(人間的な)専門知識による学習の促進と、同様のタスクに適用可能な伝達可能なスキルの獲得を促進する能力である。
これを実現するために,まず,階層型cfr更新ルールと分散削減モンテカルロサンプリング拡張を包含する表型設定でアルゴリズムを構築し,本質的な理論的保証を提供する。
そこで,本アルゴリズムを大規模アプリケーションに適用するために,ニューラルネットワークを関数近似器として使用し,理論的結果を維持しながら表裏の設定と一致する深層学習目標を提案する。
関連論文リスト
- Burning RED: Unlocking Subtask-Driven Reinforcement Learning and Risk-Awareness in Average-Reward Markov Decision Processes [7.028778922533688]
平均回帰マルコフ決定プロセス(MDPs)は、不確実性の下でのシーケンシャルな意思決定の基盤となる枠組みを提供する。
平均再帰型MDPのユニークな構造特性を考察し,これを用いてReward-Extended Differential (RED) 強化学習を導入する。
論文 参考訳(メタデータ) (2024-10-14T14:52:23Z) - Super Level Sets and Exponential Decay: A Synergistic Approach to Stable Neural Network Training [0.0]
指数減衰と高度な反オーバーフィッティング戦略を統合する動的学習率アルゴリズムを開発した。
適応学習率の影響を受けて、損失関数の超レベル集合が常に連結であることを証明する。
論文 参考訳(メタデータ) (2024-09-25T09:27:17Z) - An Efficient Learning-based Solver Comparable to Metaheuristics for the
Capacitated Arc Routing Problem [67.92544792239086]
我々は,高度メタヒューリスティックスとのギャップを著しく狭めるため,NNベースの解法を導入する。
まず,方向対応型注意モデル(DaAM)を提案する。
第2に、教師付き事前学習を伴い、堅牢な初期方針を確立するための教師付き強化学習スキームを設計する。
論文 参考訳(メタデータ) (2024-03-11T02:17:42Z) - Language-guided Skill Learning with Temporal Variational Inference [38.733622157088035]
専門家によるデモンストレーションからスキル発見のためのアルゴリズムを提案する。
以上の結果から,本手法を応用したエージェントが,学習の促進に役立つスキルを発見できることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T07:19:23Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Hierarchically Structured Task-Agnostic Continual Learning [0.0]
本研究では,連続学習のタスク非依存的な視点を取り入れ,階層的情報理論の最適性原理を考案する。
我々は,情報処理経路の集合を作成することで,忘れを緩和する,Mixture-of-Variational-Experts層と呼ばれるニューラルネットワーク層を提案する。
既存の連続学習アルゴリズムのようにタスク固有の知識を必要としない。
論文 参考訳(メタデータ) (2022-11-14T19:53:15Z) - Neuroevolution is a Competitive Alternative to Reinforcement Learning
for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。
品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:06:39Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。
教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文 参考訳(メタデータ) (2021-10-06T13:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。