論文の概要: Unraveling the Rainbow: can value-based methods schedule?
- arxiv url: http://arxiv.org/abs/2505.03323v1
- Date: Tue, 06 May 2025 08:51:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.286121
- Title: Unraveling the Rainbow: can value-based methods schedule?
- Title(参考訳): Rainbowを解き放つ:バリューベースのメソッドはスケジュールできるか?
- Authors: Arthur Corrêa, Alexandre Jesus, Cristóvão Silva, Samuel Moniz,
- Abstract要約: 広範に、深層強化学習法は、政策ベースと価値ベースという2つのカテゴリに分類される。
いくつかの値に基づくアプローチが広く採用されているポリシー最適化アルゴリズムに適合し、さらに優れることを示す。
- 参考スコア(独自算出の注目度): 41.94295877935867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, deep reinforcement learning has emerged as a promising approach for solving complex combinatorial optimization problems. Broadly, deep reinforcement learning methods fall into two categories: policy-based and value-based. While value-based approaches have achieved notable success in domains such as the Arcade Learning Environment, the combinatorial optimization community has predominantly favored policy-based methods, often overlooking the potential of value-based algorithms. In this work, we conduct a comprehensive empirical evaluation of value-based algorithms, including the deep q-network and several of its advanced extensions, within the context of two complex combinatorial problems: the job-shop and the flexible job-shop scheduling problems, two fundamental challenges with multiple industrial applications. Our results challenge the assumption that policy-based methods are inherently superior for combinatorial optimization. We show that several value-based approaches can match or even outperform the widely adopted proximal policy optimization algorithm, suggesting that value-based strategies deserve greater attention from the combinatorial optimization community. Our code is openly available at: https://github.com/AJ-Correa/Unraveling-the-Rainbow.
- Abstract(参考訳): 近年,複雑な組合せ最適化問題の解法として深層強化学習が提案されている。
広範に、深層強化学習法は、政策ベースと価値ベースという2つのカテゴリに分類される。
バリューベースのアプローチはアーケード学習環境のような領域で顕著な成功を収めてきたが、組合せ最適化コミュニティは主にポリシーベースの手法を好んでおり、しばしばバリューベースのアルゴリズムの可能性を見落としている。
本研究は,ジョブショップとフレキシブルなジョブショップスケジューリング問題,複数の産業アプリケーションにおける2つの基本的な課題,という2つの複雑な組み合わせ問題の文脈内で,深いq-networkといくつかの高度な拡張を含む価値ベースアルゴリズムの総合的な評価を行う。
本研究は,ポリシーに基づく手法が組合せ最適化に本質的に優れているという仮定に挑戦する。
いくつかの値ベースのアプローチが広く採用されている近似的ポリシー最適化アルゴリズムに適合し,さらに性能も向上することを示し,この手法が組合せ最適化コミュニティから注目に値することを示唆している。
私たちのコードは、https://github.com/AJ-Correa/Unraveling-the-Rainbow.comで公開されています。
関連論文リスト
- Constructing an Optimal Behavior Basis for the Option Keyboard [15.595163824752769]
一般政策改善(GPI)は、一連の基本方針を組み合わせて、少なくとも良い新しい政策を生成することで、この問題に対処する。
Option Keyboard (OK) は,少なくとも優れた – 多くの場合はよい – ポリシを生成することで,GPIの改善を実現している。
任意の線形タスクに対する最適解のゼロショット識別を可能にする、最適な基本ポリシーのセットが存在するか?
新たなタスクの最適性を確保するために必要な基本方針の数を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2025-05-01T18:32:21Z) - Offline Imitation Learning from Multiple Baselines with Applications to Compiler Optimization [17.729842629392742]
我々は,Kベースラインポリシーで収集した一連のトラジェクトリを与えられる強化学習問題について検討する。
目標は、状態空間全体におけるベースラインの最高の組み合わせと同様に、機能するポリシーを学ぶことです。
論文 参考訳(メタデータ) (2024-03-28T14:34:02Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Multi-Task Off-Policy Learning from Bandit Feedback [54.96011624223482]
本稿では,階層型非政治最適化アルゴリズム (HierOPO) を提案する。
学習方針の準最適性にタスクごとのバウンダリを証明し、階層モデルを使用しないよりも明確な改善を示す。
我々の理論的および実証的な結果は、各タスクを個別に解くよりも、階層を使うことの明確な利点を示している。
論文 参考訳(メタデータ) (2022-12-09T08:26:27Z) - Towards an Understanding of Default Policies in Multitask Policy
Optimization [29.806071693039655]
近年の強化学習の成功の多くは、正規化ポリシー最適化(RPO)アルゴリズムによって推進されている。
このギャップを埋める第一歩として、デフォルトポリシーの品質と最適化の効果を正式にリンクします。
次に,高い性能保証を有するマルチタスク学習のための原理的RPOアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-11-04T16:45:15Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Population-Guided Parallel Policy Search for Reinforcement Learning [17.360163137926]
都市外強化学習(RL)の性能向上を図るために,新たな人口誘導型並列学習手法を提案する。
提案手法では,複数の同一学習者が独自の値関数とポリシーを共用し,共通体験再生バッファを共有し,最良のポリシー情報のガイダンスと協調して適切なポリシーを探索する。
論文 参考訳(メタデータ) (2020-01-09T10:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。