論文の概要: Visualizing the Loss Landscape of Actor Critic Methods with Applications
in Inventory Optimization
- arxiv url: http://arxiv.org/abs/2009.02391v1
- Date: Fri, 4 Sep 2020 20:52:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 01:51:55.175458
- Title: Visualizing the Loss Landscape of Actor Critic Methods with Applications
in Inventory Optimization
- Title(参考訳): アクター批判手法の損失景観の可視化と在庫最適化への応用
- Authors: Recep Yusuf Bekci, Mehmet G\"um\"u\c{s}
- Abstract要約: 最適化の重要な部分であるアクター損失関数の特徴を示す。
我々は,サプライチェーンの運用において非常に困難な問題である多店舗動的在庫管理にアプローチを適用し,最適政策に関連する損失関数の形状を探索する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continuous control is a widely applicable area of reinforcement learning. The
main players of this area are actor-critic methods that utilize policy
gradients of neural approximators as a common practice. The focus of our study
is to show the characteristics of the actor loss function which is the
essential part of the optimization. We exploit low dimensional visualizations
of the loss function and provide comparisons for loss landscapes of various
algorithms. Furthermore, we apply our approach to multi-store dynamic inventory
control, a notoriously difficult problem in supply chain operations, and
explore the shape of the loss function associated with the optimal policy. We
modelled and solved the problem using reinforcement learning while having a
loss landscape in favor of optimality.
- Abstract(参考訳): 継続的制御は強化学習の広く適用可能な領域である。
この領域の主なプレイヤーは、ニューラル近似器のポリシー勾配を共通の実践として利用するアクター批判的手法である。
本研究の目的は,最適化の重要な部分であるアクタ損失関数の特性を明らかにすることである。
損失関数の低次元可視化を活用し,様々なアルゴリズムの損失景観の比較を行う。
さらに,本手法をサプライチェーン運用における極めて困難な問題であるマルチストア動的在庫管理に適用し,最適ポリシに関連する損失関数の形状を探索する。
最適性に有利なロスランドスケープを持ちながら,強化学習を用いて問題をモデル化し,解決した。
関連論文リスト
- A Novel Differentiable Loss Function for Unsupervised Graph Neural
Networks in Graph Partitioning [5.22145960878624]
グラフ分割問題はNPハードプロブレムとして認識される。
グラフ分割問題を解決するために,教師なしグラフニューラルネットワークを用いた新しいパイプラインを導入する。
我々は、現代の最先端技術に対する我々の方法論を厳格に評価し、メトリクス(カットとバランス)に重点を置いています。
論文 参考訳(メタデータ) (2023-12-11T23:03:17Z) - Unsupervised approaches based on optimal transport and convex analysis
for inverse problems in imaging [6.202226277935329]
本稿では,画像逆問題の解法として理論的に原理化された教師なし学習手法について検討する。
最適な輸送と凸解析に根ざした手法に着目する。
本稿では,確率収束型学習最適化アルゴリズムに関する最近の研究の概要について述べる。
論文 参考訳(メタデータ) (2023-11-15T14:04:37Z) - Gradient constrained sharpness-aware prompt learning for vision-language
models [99.74832984957025]
本稿では,視覚言語モデル(VLM)の一般化可能な即時学習における新たなトレードオフ問題を提案する。
最先端手法のロスランドスケープとSAMに基づくバニラシャープネス認識最小化法を解析することにより、トレードオフ性能は損失値と損失シャープネスの両方に相関していると結論付けた。
本稿では,GCSCoOp (Gradient Constrained Sharpness-Aware Context Optimization) と表記される,素早い学習のためのSAMベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-14T17:13:54Z) - A survey and taxonomy of loss functions in machine learning [60.41650195728953]
ほとんどの最先端の機械学習技術は、損失関数の最適化を中心に進化している。
この調査は、初心者と高度な機械学習実践者の両方にとって最も重要な損失関数の参照を提供することを目的としている。
論文 参考訳(メタデータ) (2023-01-13T14:38:24Z) - Lexicographic Multi-Objective Reinforcement Learning [65.90380946224869]
このような問題を解決するために,アクション値アルゴリズムとポリシー勾配アルゴリズムの両方のファミリを提案する。
エージェントの動作に安全制約を課すのに我々のアルゴリズムをどのように使用できるかを示し、この文脈でのそれらの性能を他の制約付き強化学習アルゴリズムと比較する。
論文 参考訳(メタデータ) (2022-12-28T10:22:36Z) - Low-Dimensional State and Action Representation Learning with MDP
Homomorphism Metrics [1.5293427903448022]
深層強化学習(Deep Reinforcement Learning)は、高次元観察から直接複雑な問題を解く能力を示している。
エンドツーエンドの設定では、強化学習アルゴリズムはサンプリング効率が良くなく、長いトレーニング時間と大量のデータを必要とする。
状態と行動表現を利用して高次元問題を低次元に変換するサンプル効率強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-04T16:26:04Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Online Convex Optimization Perspective for Learning from Dynamically
Revealed Preferences [0.0]
オンライン学習の課題を、明らかにした嗜好から検討する。
学習者は、変化する環境において、エージェントのユーティリティ最大化動作を観察して、非戦略エージェントのプライベートユーティリティ機能を学びたい。
我々は,学習者がエージェントの行動の流れをオンライン形式で観察し,損失関数に関連付けられた後悔によって学習性能を測定するオンライン逆最適化装置を採用する。
論文 参考訳(メタデータ) (2020-08-24T14:05:13Z) - On the Loss Landscape of Adversarial Training: Identifying Challenges
and How to Overcome Them [57.957466608543676]
機械学習モデルの損失景観に及ぼす対人訓練の影響を解析する。
曲率の増加と散乱勾配の増大により, 対向損失景観は最適化にはあまり好ましくないことを示す。
論文 参考訳(メタデータ) (2020-06-15T13:50:23Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。