論文の概要: Achieving Stable Training of Reinforcement Learning Agents in Bimodal
Environments through Batch Learning
- arxiv url: http://arxiv.org/abs/2307.00923v1
- Date: Mon, 3 Jul 2023 10:49:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 13:29:52.579908
- Title: Achieving Stable Training of Reinforcement Learning Agents in Bimodal
Environments through Batch Learning
- Title(参考訳): バッチ学習によるバイモーダル環境における強化学習エージェントの安定訓練
- Authors: E. Hurwitz, N. Peace, G. Cevora
- Abstract要約: バイモーダル環境は、典型的な強化学習問題に挑戦する。
本稿では,バッチ更新を用いることで,これらの課題に対処するための新しい学習手法を提案する。
この研究は、強化学習の実践的、産業的展開を可能にする大きな可能性を秘めている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bimodal, stochastic environments present a challenge to typical Reinforcement
Learning problems. This problem is one that is surprisingly common in real
world applications, being particularly applicable to pricing problems. In this
paper we present a novel learning approach to the tabular Q-learning algorithm,
tailored to tackling these specific challenges by using batch updates. A
simulation of pricing problem is used as a testbed to compare a typically
updated agent with a batch learning agent. The batch learning agents are shown
to be both more effective than the typically-trained agents, and to be more
resilient to the fluctuations in a large stochastic environment. This work has
a significant potential to enable practical, industrial deployment of
Reinforcement Learning in the context of pricing and others.
- Abstract(参考訳): バイモーダルで確率的な環境は、典型的な強化学習問題に挑戦する。
この問題は、現実世界のアプリケーションで驚くほど一般的であり、価格問題に特に当てはまる。
本稿では,バッチ更新を用いることで,これらの課題に対処することを目的とした,表型Q-ラーニングアルゴリズムに対する新しい学習手法を提案する。
価格問題のシミュレーションは、通常更新されたエージェントとバッチ学習エージェントを比較するためのテストベッドとして使用される。
バッチ学習エージェントは、通常訓練されたエージェントよりも効果的であり、大きな確率環境におけるゆらぎに対してより弾力性があることが示される。
この作業は、価格などの文脈で強化学習を実践的かつ工業的に展開する上で、大きな可能性を秘めている。
関連論文リスト
- Impact of Decentralized Learning on Player Utilities in Stackelberg Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。
分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。
我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-29T23:38:28Z) - Handling Cost and Constraints with Off-Policy Deep Reinforcement
Learning [2.793095554369282]
政治外学習の最も一般的な方法は、学習された状態アクション(Q$)値関数が選択されたデータのバッチに対して最大化されるポリシー改善ステップである。
我々は、この戦略を「混合符号」報酬関数を持つ環境で再考する。
この2つ目のアプローチは、混合符号の報酬を持つ連続的な行動空間に適用した場合、リセットによって拡張された最先端の手法よりも一貫して、著しく優れる。
論文 参考訳(メタデータ) (2023-11-30T16:31:04Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - A Multi-label Continual Learning Framework to Scale Deep Learning
Approaches for Packaging Equipment Monitoring [57.5099555438223]
連続シナリオにおけるマルチラベル分類を初めて研究した。
タスク数に関して対数的複雑性を持つ効率的なアプローチを提案する。
我々は,包装業界における実世界のマルチラベル予測問題に対するアプローチを検証した。
論文 参考訳(メタデータ) (2022-08-08T15:58:39Z) - Achieving Minimax Rates in Pool-Based Batch Active Learning [26.12124106759262]
本稿では,学習者がラベル付けオラクルへのポイントのバッチを適応的に発行する,バッチアクティブな学習シナリオについて考察する。
本稿では,問合せ点の情報性と,その多様性との間に注意深いトレードオフを必要とする解を提案する。
論文 参考訳(メタデータ) (2022-02-11T04:55:45Z) - SA-MATD3:Self-attention-based multi-agent continuous control method in
cooperative environments [12.959163198988536]
既存のアルゴリズムは、エージェントの数が増加するにつれて、不均一な学習度の問題に悩まされる。
マルチエージェントアクター批評家のための新しい構造を提案し,批評家ネットワークに自己注意機構を適用した。
提案アルゴリズムは、リプレイメモリバッファ内のサンプルをフル活用して、エージェントのクラスの振る舞いを学習する。
論文 参考訳(メタデータ) (2021-07-01T08:15:05Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Active Learning for Sequence Tagging with Deep Pre-trained Models and
Bayesian Uncertainty Estimates [52.164757178369804]
自然言語処理のためのトランスファーラーニングとアクティブラーニングの最近の進歩は、必要なアノテーション予算を大幅に削減する可能性を開く。
我々は,様々なベイズ不確実性推定手法とモンテカルロドロップアウトオプションの実験的研究を,アクティブ学習フレームワークで実施する。
また, 能動学習中にインスタンスを取得するためには, 完全サイズのトランスフォーマーを蒸留版に置き換えることにより, 計算性能が向上することを示した。
論文 参考訳(メタデータ) (2021-01-20T13:59:25Z) - Pre-trained Word Embeddings for Goal-conditional Transfer Learning in
Reinforcement Learning [0.0]
本稿では,事前訓練されたタスク非依存言語モデルによって,目標条件付きRLエージェントをより効率的にする方法について述べる。
私たちは、異なる関連するタスク間の伝達学習を容易にすることで、これを実現します。
論文 参考訳(メタデータ) (2020-07-10T06:42:00Z) - Learning Reusable Options for Multi-Task Reinforcement Learning [27.864350957396322]
再利用可能な選択肢を学習することで、既存の体験を活用するためのフレームワークを提案する。
エージェントが少数の問題を解決するためのポリシーを学習した後、これらのポリシーから生成されたトラジェクトリを使って再利用可能な選択肢を学習できることを示す。
論文 参考訳(メタデータ) (2020-01-06T13:49:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。