論文の概要: RL4CO: an Extensive Reinforcement Learning for Combinatorial
Optimization Benchmark
- arxiv url: http://arxiv.org/abs/2306.17100v1
- Date: Thu, 29 Jun 2023 16:57:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 12:29:22.586118
- Title: RL4CO: an Extensive Reinforcement Learning for Combinatorial
Optimization Benchmark
- Title(参考訳): RL4CO: Combinatorial Optimization Benchmarkのための拡張強化学習
- Authors: Federico Berto, Chuanbo Hua, Junyoung Park, Minsu Kim, Hyeonah Kim,
Jiwoo Son, Haeyeon Kim, Joungho Kim, Jinkyoo Park
- Abstract要約: 最適化(CO)ベンチマークのための拡張強化学習(RL)であるRL4COを紹介する。
RL4COは、モジュラリティや構成管理といった実装におけるベストプラクティスと同様に、最先端のソフトウェアライブラリを採用している。
- 参考スコア(独自算出の注目度): 10.548881485826923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce RL4CO, an extensive reinforcement learning (RL) for
combinatorial optimization (CO) benchmark. RL4CO employs state-of-the-art
software libraries as well as best practices in implementation, such as
modularity and configuration management, to be efficient and easily modifiable
by researchers for adaptations of neural network architecture, environments,
and algorithms. Contrary to the existing focus on specific tasks like the
traveling salesman problem (TSP) for performance assessment, we underline the
importance of scalability and generalization capabilities for diverse
optimization tasks. We also systematically benchmark sample efficiency,
zero-shot generalization, and adaptability to changes in data distributions of
various models. Our experiments show that some recent state-of-the-art methods
fall behind their predecessors when evaluated using these new metrics,
suggesting the necessity for a more balanced view of the performance of neural
CO solvers. We hope RL4CO will encourage the exploration of novel solutions to
complex real-world tasks, allowing to compare with existing methods through a
standardized interface that decouples the science from the software
engineering. We make our library publicly available at
https://github.com/kaist-silab/rl4co.
- Abstract(参考訳): 組合せ最適化(CO)ベンチマークのための拡張強化学習(RL)であるRL4COを紹介する。
rl4coは最先端のソフトウェアライブラリとモジュラリティや構成管理などの実装のベストプラクティスを採用しており、ニューラルネットワークアーキテクチャ、環境、アルゴリズムの適応について研究者によって効率的かつ容易に修正可能である。
パフォーマンスアセスメントのためのトラベルセールスマン問題(tsp)のような特定のタスクに対する既存のフォーカスとは対照的に、様々な最適化タスクにおけるスケーラビリティと一般化機能の重要性を強調する。
また, サンプル効率, ゼロショット一般化, 各種モデルのデータ分布変化への適応性を系統的に評価した。
実験の結果,新しい指標を用いた評価では,最新の手法が先行手法に遅れをきたすことが明らかとなり,ニューラルコソルバの性能をよりバランスのとれた視点の必要性が示唆された。
RL4COは、複雑な現実世界のタスクに対する新しいソリューションの探求を奨励し、ソフトウェア工学から科学を分離する標準化されたインターフェースを通じて既存の方法と比較できるようにしたい。
ライブラリをhttps://github.com/kaist-silab/rl4coで公開しています。
関連論文リスト
- StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Inverse Preference Learning: Preference-based RL without a Reward
Function [34.31087304327075]
Inverse Preference Learning (IPL) は、オフラインの嗜好データから学習するために特別に設計された。
我々の重要な洞察は、固定されたポリシーに対して、$Q$関数は報酬関数に関する全ての情報をエンコードし、効果的に交換可能であることである。
IPLは、トランスフォーマーベースおよび非マルコフ報酬関数を利用するより複雑なアプローチと比較して、競争性能が向上する。
論文 参考訳(メタデータ) (2023-05-24T17:14:10Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Deep Reinforcement Learning for Exact Combinatorial Optimization:
Learning to Branch [13.024115985194932]
本稿では、強化学習(RL)パラダイムを用いた最適化において、データラベリングと推論の問題を解決するための新しいアプローチを提案する。
我々は模倣学習を用いてRLエージェントをブートストラップし、PPO(Proximal Policy)を使用してグローバルな最適なアクションを探索する。
論文 参考訳(メタデータ) (2022-06-14T16:35:58Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z) - The Machine Learning for Combinatorial Optimization Competition (ML4CO):
Results and Insights [59.93939636422896]
ML4COは、キーコンポーネントを置き換えることで最先端の最適化問題を解決することを目的としている。
このコンペティションでは、最高の実現可能なソリューションを見つけること、最も厳密な最適性証明書を生成すること、適切なルーティング設定を提供すること、という3つの課題があった。
論文 参考訳(メタデータ) (2022-03-04T17:06:00Z) - CARL: A Benchmark for Contextual and Adaptive Reinforcement Learning [45.52724876199729]
本稿では、文脈RL問題に拡張されたよく知られたRL環境の集合であるCARLについて述べる。
政策学習から状態の表現学習と文脈を分離することで、より一般化が促進されるという最初の証拠を提供する。
論文 参考訳(メタデータ) (2021-10-05T15:04:01Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Reinforcement Learning for Combinatorial Optimization: A Survey [12.323976053967066]
最適化問題を解決する多くの伝統的なアルゴリズムは、解決を逐次構築する手工芸品を使用する。
強化学習(Reinforcement Learning, RL)は、エージェントを監督的または自己監督的な方法で訓練することにより、これらの検索を自動化する優れた代替手段を提案する。
論文 参考訳(メタデータ) (2020-03-07T16:19:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。