Fugu-MT 論文翻訳(概要): Visualizing the Loss Landscape of Actor Critic Methods with Applications in Inventory Optimization

論文の概要: Visualizing the Loss Landscape of Actor Critic Methods with Applications in Inventory Optimization

arxiv url: http://arxiv.org/abs/2009.02391v1
Date: Fri, 4 Sep 2020 20:52:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-22 01:51:55.175458
Title: Visualizing the Loss Landscape of Actor Critic Methods with Applications in Inventory Optimization
Title（参考訳）: アクター批判手法の損失景観の可視化と在庫最適化への応用
Authors: Recep Yusuf Bekci, Mehmet G\"um\"u\c{s}
Abstract要約: 最適化の重要な部分であるアクター損失関数の特徴を示す。我々は,サプライチェーンの運用において非常に困難な問題である多店舗動的在庫管理にアプローチを適用し,最適政策に関連する損失関数の形状を探索する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Continuous control is a widely applicable area of reinforcement learning. The main players of this area are actor-critic methods that utilize policy gradients of neural approximators as a common practice. The focus of our study is to show the characteristics of the actor loss function which is the essential part of the optimization. We exploit low dimensional visualizations of the loss function and provide comparisons for loss landscapes of various algorithms. Furthermore, we apply our approach to multi-store dynamic inventory control, a notoriously difficult problem in supply chain operations, and explore the shape of the loss function associated with the optimal policy. We modelled and solved the problem using reinforcement learning while having a loss landscape in favor of optimality.
Abstract（参考訳）: 継続的制御は強化学習の広く適用可能な領域である。この領域の主なプレイヤーは、ニューラル近似器のポリシー勾配を共通の実践として利用するアクター批判的手法である。本研究の目的は,最適化の重要な部分であるアクタ損失関数の特性を明らかにすることである。損失関数の低次元可視化を活用し,様々なアルゴリズムの損失景観の比較を行う。さらに,本手法をサプライチェーン運用における極めて困難な問題であるマルチストア動的在庫管理に適用し,最適ポリシに関連する損失関数の形状を探索する。最適性に有利なロスランドスケープを持ちながら,強化学習を用いて問題をモデル化し,解決した。

関連論文リスト

Loss Functions in Deep Learning: A Comprehensive Review [3.8001666556614446]
損失関数はディープラーニングの中心であり、モデルがどのように学習し、さまざまなタスクで実行するかを形作る。本稿では, 損失関数の包括的レビューを行い, 平均二乗誤差やクロスエントロピーといった基本的な指標を, 逆数や拡散損失などの高度な関数に適用する。
論文参考訳（メタデータ） (2025-04-05T18:07:20Z)
The Central Role of the Loss Function in Reinforcement Learning [46.72524235085568]
回帰損失関数の違いが値に基づく意思決定アルゴリズムのサンプル効率と適応性に与える影響を実証する。複数の設定にまたがって、バイナリクロスエントロピー損失を用いたアルゴリズムが、最適ポリシーのコストで1次境界スケーリングを実現することを証明した。本論文は, 種々の損失関数を持つ意思決定アルゴリズムのガイドとして機能し, 読者により良い損失関数を求め, 任意の意思決定アルゴリズムを改善することを期待する。
論文参考訳（メタデータ） (2024-09-19T14:10:38Z)
Can No-Reference Quality-Assessment Methods Serve as Perceptual Losses for Super-Resolution? [0.0]
知覚的損失は、ディープ・ニューラル・ネットワーク・ベースの手法を構築する上で重要な役割を果たす。本稿では,非参照画像品質評価法を知覚的損失として用いたビデオ超解像モデルの直接最適化について検討する。
論文参考訳（メタデータ） (2024-05-30T18:04:58Z)
Gradient constrained sharpness-aware prompt learning for vision-language models [99.74832984957025]
本稿では,視覚言語モデル(VLM)の一般化可能な即時学習における新たなトレードオフ問題を提案する。最先端手法のロスランドスケープとSAMに基づくバニラシャープネス認識最小化法を解析することにより、トレードオフ性能は損失値と損失シャープネスの両方に相関していると結論付けた。本稿では,GCSCoOp (Gradient Constrained Sharpness-Aware Context Optimization) と表記される,素早い学習のためのSAMベースの新しい手法を提案する。
論文参考訳（メタデータ） (2023-09-14T17:13:54Z)
A survey and taxonomy of loss functions in machine learning [51.35995529962554]
本稿では, 回帰, 分類, 生成モデル, ランキング, エネルギーベースモデリングなど, 主要なアプリケーションにまたがる最も広く使われている損失関数について概観する。直感的な分類法で構築された43個の個別の損失関数を導入し,それらの理論的基礎,特性,最適な適用状況を明らかにした。
論文参考訳（メタデータ） (2023-01-13T14:38:24Z)
Lexicographic Multi-Objective Reinforcement Learning [65.90380946224869]
このような問題を解決するために,アクション値アルゴリズムとポリシー勾配アルゴリズムの両方のファミリを提案する。エージェントの動作に安全制約を課すのに我々のアルゴリズムをどのように使用できるかを示し、この文脈でのそれらの性能を他の制約付き強化学習アルゴリズムと比較する。
論文参考訳（メタデータ） (2022-12-28T10:22:36Z)
Low-Dimensional State and Action Representation Learning with MDP Homomorphism Metrics [1.5293427903448022]
深層強化学習(Deep Reinforcement Learning)は、高次元観察から直接複雑な問題を解く能力を示している。エンドツーエンドの設定では、強化学習アルゴリズムはサンプリング効率が良くなく、長いトレーニング時間と大量のデータを必要とする。状態と行動表現を利用して高次元問題を低次元に変換するサンプル効率強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-07-04T16:26:04Z)
Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文参考訳（メタデータ） (2020-10-21T17:14:31Z)
Online Convex Optimization Perspective for Learning from Dynamically Revealed Preferences [0.0]
オンライン学習の課題を、明らかにした嗜好から検討する。学習者は、変化する環境において、エージェントのユーティリティ最大化動作を観察して、非戦略エージェントのプライベートユーティリティ機能を学びたい。我々は,学習者がエージェントの行動の流れをオンライン形式で観察し,損失関数に関連付けられた後悔によって学習性能を測定するオンライン逆最適化装置を採用する。
論文参考訳（メタデータ） (2020-08-24T14:05:13Z)
On the Loss Landscape of Adversarial Training: Identifying Challenges and How to Overcome Them [57.957466608543676]
機械学習モデルの損失景観に及ぼす対人訓練の影響を解析する。曲率の増加と散乱勾配の増大により, 対向損失景観は最適化にはあまり好ましくないことを示す。
論文参考訳（メタデータ） (2020-06-15T13:50:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。