論文の概要: Exploring Parity Challenges in Reinforcement Learning through Curriculum
Learning with Noisy Labels
- arxiv url: http://arxiv.org/abs/2312.05379v2
- Date: Sun, 14 Jan 2024 10:23:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 00:26:19.208739
- Title: Exploring Parity Challenges in Reinforcement Learning through Curriculum
Learning with Noisy Labels
- Title(参考訳): 雑音ラベルを用いたカリキュラム学習による強化学習におけるパリティ課題の探索
- Authors: Bei Zhou, Soren Riis
- Abstract要約: 本稿では,カリキュラム学習フレームワーク内に構築され,ノイズラベルを付加したシミュレーション学習プロセスを提案する。
このアプローチは、ニューラルネットワーク(NN)が小学校からより複雑なゲームポジションにどのように適応し、進化するかを、徹底的に分析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper delves into applying reinforcement learning (RL) in strategy
games, particularly those characterized by parity challenges, as seen in
specific positions of Go and Chess and a broader range of impartial games. We
propose a simulated learning process, structured within a curriculum learning
framework and augmented with noisy labels, to mirror the intricacies of
self-play learning scenarios. This approach thoroughly analyses how neural
networks (NNs) adapt and evolve from elementary to increasingly complex game
positions. Our empirical research indicates that even minimal label noise can
significantly impede NNs' ability to discern effective strategies, a difficulty
that intensifies with the growing complexity of the game positions. These
findings underscore the urgent need for advanced methodologies in RL training,
specifically tailored to counter the obstacles imposed by noisy evaluations.
The development of such methodologies is crucial not only for enhancing NN
proficiency in strategy games with significant parity elements but also for
broadening the resilience and efficiency of RL systems across diverse and
complex environments.
- Abstract(参考訳): 本稿では,戦略ゲームにおける強化学習(rl)の適用について,特にgoとチェスの特定の位置やより広い範囲の公平なゲームに見られるように,パリティチャレンジを特徴とするものについて述べる。
本研究では,カリキュラム学習フレームワーク内に構築され,ノイズラベルを付加したシミュレーション学習プロセスを提案し,自己学習シナリオの複雑さを反映する。
このアプローチは、ニューラルネットワーク(nn)が初等から複雑化するゲームポジションへの適応と進化を徹底的に分析する。
実験の結果,最小限のラベルノイズでもnnsの効果的な戦略を識別する能力は著しく阻害され,ゲーム位置の複雑さが増すにつれて難易度が高まることがわかった。
これらの知見は, 騒音評価による障害に対応するため, RLトレーニングにおける高度な方法論の必要性を浮き彫りにした。
このような手法の開発は、重要なパリティ要素を持つ戦略ゲームにおけるNN能力の向上だけでなく、多様な複雑な環境におけるRLシステムのレジリエンスと効率の向上にも不可欠である。
関連論文リスト
- StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization [94.31508613367296]
Retrieval-augmented Generation(RAG)は、大規模言語モデル(LLM)を効果的に強化する鍵となる手段である。
本稿では,手前のタスクに対して最適な構造型を識別し,元の文書をこの構造化形式に再構成し,その結果に基づいて回答を推測するStructRAGを提案する。
実験の結果、StructRAGは最先端のパフォーマンスを実現し、特に挑戦的なシナリオに優れていた。
論文 参考訳(メタデータ) (2024-10-11T13:52:44Z) - Learning Strategy Representation for Imitation Learning in Multi-Agent Games [15.209555810145549]
本稿では,マルチエージェントゲームにおける戦略表現を効果的に学習するSTRIL(Strategy Representation for Learning)フレームワークを紹介する。
STRILは既存のILアルゴリズムに統合可能なプラグインメソッドである。
2人プレイのPong、Limit Texas Hold'em、Connect Fourなど、競合するマルチエージェントシナリオにおけるSTRILの有効性を実証する。
論文 参考訳(メタデータ) (2024-09-28T14:30:17Z) - Zero-Sum Positional Differential Games as a Framework for Robust Reinforcement Learning: Deep Q-Learning Approach [2.3020018305241337]
本稿では、位置微分ゲーム理論におけるRRL問題を考慮した最初の提案である。
すなわち、イザックの条件の下では、同じQ-函数をミニマックス方程式とマクシミン・ベルマン方程式の近似解として利用することができる。
本稿ではIssas Deep Q-Networkアルゴリズムについて,他のベースラインRRLやMulti-Agent RLアルゴリズムと比較して,その優位性を示す。
論文 参考訳(メタデータ) (2024-05-03T12:21:43Z) - Scalable Learning of Intrusion Responses through Recursive Decomposition [0.0]
本稿では,ITインフラへの自動侵入応答と,攻撃者と防御者との相互作用を部分的に観察されたゲームとして検討する。
この問題を解決するために、我々は、強化学習と均衡に向けた自己プレイを通じて、攻撃戦略と防衛戦略が共進化するアプローチに従う。
近似により平衡を学習するDFSP(Decompositional Fictitious Self-Play)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-06T18:12:07Z) - Structure in Deep Reinforcement Learning: A Survey and Open Problems [22.77618616444693]
関数近似のためのディープニューラルネットワーク(DNN)の表現能力に支えられた強化学習(RL)は、多くのアプリケーションでかなりの成功を収めている。
しかし、様々な現実のシナリオに対処する実践性は、多様で予測不可能なダイナミクスによって特徴づけられるが、依然として限られている。
この制限は、データ効率の低下、一般化能力の制限、安全性保証の欠如、解釈可能性の欠如に起因している。
論文 参考訳(メタデータ) (2023-06-28T08:48:40Z) - Reinforcement Learning with Stepwise Fairness Constraints [50.538878453547966]
本稿では,段階的公正性制約を伴う強化学習について紹介する。
我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-11-08T04:06:23Z) - A Game-Theoretic Perspective of Generalization in Reinforcement Learning [9.402272029807316]
強化学習(RL)の一般化は、RLアルゴリズムの実際の展開において重要である。
強化学習における一般化のためのゲーム理論フレームワークGiRLを提案する。
論文 参考訳(メタデータ) (2022-08-07T06:17:15Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Where Did You Learn That From? Surprising Effectiveness of Membership
Inference Attacks Against Temporally Correlated Data in Deep Reinforcement
Learning [114.9857000195174]
深い強化学習を産業的に広く採用する上での大きな課題は、プライバシー侵害の潜在的な脆弱性である。
本稿では, 深層強化学習アルゴリズムの脆弱性を検証し, メンバーシップ推論攻撃に適応する対戦型攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-08T23:44:57Z) - Towards Balanced Learning for Instance Recognition [149.76724446376977]
本稿では,インスタンス認識のためのバランス学習のためのフレームワークであるLibra R-CNNを提案する。
IoUバランスのサンプリング、バランスの取れた特徴ピラミッド、客観的再重み付けをそれぞれ統合し、サンプル、特徴、客観的レベルの不均衡を低減します。
論文 参考訳(メタデータ) (2021-08-23T13:40:45Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。