論文の概要: Reinforcement Learning with Intrinsically Motivated Feedback Graph for Lost-sales Inventory Control
- arxiv url: http://arxiv.org/abs/2406.18351v1
- Date: Wed, 26 Jun 2024 13:52:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 13:19:36.063966
- Title: Reinforcement Learning with Intrinsically Motivated Feedback Graph for Lost-sales Inventory Control
- Title(参考訳): ロスセールインベントリ制御のための本質的なモチベーションフィードバックグラフによる強化学習
- Authors: Zifan Liu, Xinran Li, Shibo Chen, Gen Li, Jiashuo Jiang, Jun Zhang,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は, インベントリコントロール(IC)領域において, 優れた性能と汎用性があることが証明されている。
オンライン体験は、現実世界のアプリケーションで入手するのに費用がかかる。
オンライン体験は、ICの典型的な失業現象による真の需要を反映していない可能性がある。
- 参考スコア(独自算出の注目度): 12.832009040635462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has proven to be well-performed and general-purpose in the inventory control (IC). However, further improvement of RL algorithms in the IC domain is impeded due to two limitations of online experience. First, online experience is expensive to acquire in real-world applications. With the low sample efficiency nature of RL algorithms, it would take extensive time to train the RL policy to convergence. Second, online experience may not reflect the true demand due to the lost sales phenomenon typical in IC, which makes the learning process more challenging. To address the above challenges, we propose a decision framework that combines reinforcement learning with feedback graph (RLFG) and intrinsically motivated exploration (IME) to boost sample efficiency. In particular, we first take advantage of the inherent properties of lost-sales IC problems and design the feedback graph (FG) specially for lost-sales IC problems to generate abundant side experiences aid RL updates. Then we conduct a rigorous theoretical analysis of how the designed FG reduces the sample complexity of RL methods. Based on the theoretical insights, we design an intrinsic reward to direct the RL agent to explore to the state-action space with more side experiences, further exploiting FG's power. Experimental results demonstrate that our method greatly improves the sample efficiency of applying RL in IC. Our code is available at https://anonymous.4open.science/r/RLIMFG4IC-811D/
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は, 在庫管理(IC)において, 優れた性能と汎用性があることが証明されている。
しかし、オンライン体験の2つの制限により、ICドメインにおけるRLアルゴリズムのさらなる改善が妨げられている。
第一に、オンライン体験は現実世界のアプリケーションを購入するのに費用がかかる。
RLアルゴリズムのサンプル効率性が低いため、収束のためにRLポリシーを訓練するのに長い時間がかかる。
第二に、オンライン体験は、ICで典型的な販売現象が失われたことによる真の需要を反映していないため、学習プロセスがより困難になる可能性がある。
以上の課題に対処するために,強化学習とフィードバックグラフ(RLFG)を組み合わせた意思決定フレームワークを提案し,本質的なモチベーション探索(IME)を行い,サンプル効率を向上する。
特に,ロスセールIC問題の本質的特性を第一に活用し,ロスセールIC問題に特化してフィードバックグラフ(FG)を設計し,豊富なサイドエクスペリエンスを生成することでRL更新を支援する。
次に、設計されたFGがRL法のサンプル複雑性をいかに低減するかに関する厳密な理論的解析を行う。
理論的知見に基づいて、我々はRLエージェントにより多くのサイドエクスペリエンスを持つ状態-アクション空間への探索を指示する本質的な報酬を設計し、FGのパワーをさらに活用する。
実験により,本手法はICにRLを適用する際の試料効率を大幅に向上することが示された。
私たちのコードはhttps://anonymous.4open.science/r/RLIMFG4IC-811D/で利用可能です。
関連論文リスト
- Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。
以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。
IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文 参考訳(メタデータ) (2024-11-15T15:18:57Z) - Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。
本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文 参考訳(メタデータ) (2024-06-13T17:07:49Z) - Hybrid Inverse Reinforcement Learning [34.793570631021005]
逆強化学習による模倣学習は 両刃剣である。
我々は、不要な探索を抑えるために、ハイブリッドRL(オンラインデータとエキスパートデータの混合に関するトレーニング)の使用を提案する。
モデルフリーとモデルベースハイブリッド逆RLアルゴリズムの両方を導出し、強力なポリシー性能を保証する。
論文 参考訳(メタデータ) (2024-02-13T23:29:09Z) - The Virtues of Pessimism in Inverse Reinforcement Learning [38.98656220917943]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから複雑な振る舞いを学ぶための強力なフレームワークである。
内ループRLにおける専門家のデモンストレーションを活用することにより、探査負担を軽減することが望ましい。
我々は、IRLにおけるRLの高速化のための代替アプローチとして、Emphpessimism、すなわち、オフラインのRLアルゴリズムを用いてインスタンス化された専門家のデータ分布に近づき続けることを考える。
論文 参考訳(メタデータ) (2024-02-04T21:22:29Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - Single-Shot Pruning for Offline Reinforcement Learning [47.886329599997474]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な現実世界の問題を解決するための強力なフレームワークである。
この問題に対処するひとつの方法は、必要なパラメータだけを残したニューラルネットワークをプルークすることです。
我々は,RLと単発プルーニングのギャップを埋め,オフラインRLに対する一般的なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2021-12-31T18:10:02Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - Learning Dexterous Manipulation from Suboptimal Experts [69.8017067648129]
相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
論文 参考訳(メタデータ) (2020-10-16T18:48:49Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。