論文の概要: RL4CO: a Unified Reinforcement Learning for Combinatorial Optimization
Library
- arxiv url: http://arxiv.org/abs/2306.17100v3
- Date: Mon, 4 Dec 2023 09:01:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 22:53:39.980239
- Title: RL4CO: a Unified Reinforcement Learning for Combinatorial Optimization
Library
- Title(参考訳): RL4CO: Combinatorial Optimization Libraryのための統一強化学習
- Authors: Federico Berto, Chuanbo Hua, Junyoung Park, Minsu Kim, Hyeonah Kim,
Jiwoo Son, Haeyeon Kim, Joungho Kim, Jinkyoo Park
- Abstract要約: RL4CO(Reinforcement Learning for Combinatorial Optimization)ライブラリを紹介する。
私たちは、モジュール化や構成管理など、最先端のソフトウェアとベストプラクティスを実装に採用しています。
ゼロショット性能,一般化,適応性の異なる評価スキームを用いたベースラインRLソルバのベンチマークを行った。
- 参考スコア(独自算出の注目度): 32.67950169615487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning offers notable benefits in addressing
combinatorial problems over traditional solvers, reducing the reliance on
domain-specific knowledge and expert solutions, and improving computational
efficiency. Despite the recent surge in interest in neural combinatorial
optimization, practitioners often do not have access to a standardized code
base. Moreover, different algorithms are frequently based on fragmentized
implementations that hinder reproducibility and fair comparison. To address
these challenges, we introduce RL4CO, a unified Reinforcement Learning (RL) for
Combinatorial Optimization (CO) library. We employ state-of-the-art software
and best practices in implementation, such as modularity and configuration
management, to be flexible, easily modifiable, and extensible by researchers.
Thanks to our unified codebase, we benchmark baseline RL solvers with different
evaluation schemes on zero-shot performance, generalization, and adaptability
on diverse tasks. Notably, we find that some recent methods may fall behind
their predecessors depending on the evaluation settings. We hope RL4CO will
encourage the exploration of novel solutions to complex real-world tasks,
allowing the community to compare with existing methods through a unified
framework that decouples the science from software engineering. We open-source
our library at https://github.com/ai4co/rl4co.
- Abstract(参考訳): 深層強化学習は、従来の解法よりも組合せ問題に対処し、ドメイン固有の知識とエキスパートソリューションへの依存を減らし、計算効率を向上させる上で、顕著な利点を提供する。
最近のニューラルネットワーク最適化への関心の高まりにもかかわらず、実践者はしばしば標準化されたコードベースにアクセスできない。
さらに、異なるアルゴリズムはしばしば再現性と公正な比較を妨げる断片化実装に基づいている。
これらの課題に対処するため,コンビネーション最適化(CO)ライブラリ用の統合強化学習(RL)であるRL4COを紹介する。
私たちは最先端のソフトウェアとモジュラリティや構成管理といった実装のベストプラクティスを採用し、研究者が柔軟で簡単に修正可能で拡張可能なものにしています。
コードベースの統一化により、ゼロショット性能、一般化、多様なタスクへの適応性に関する異なる評価スキームを持つベースラインRLソルバをベンチマークする。
特に,評価設定によっては,最近の手法が先行手法に遅れる可能性がある。
私たちはrl4coが複雑な実世界のタスクに対する新しいソリューションの探求を奨励し、コミュニティがソフトウェアエンジニアリングから科学を分離する統一フレームワークを通じて既存の方法と比較できるようにすることを望んでいる。
私たちはライブラリをhttps://github.com/ai4co/rl4coでオープンソースにしました。
関連論文リスト
- EasyRL4Rec: A User-Friendly Code Library for Reinforcement Learning
Based Recommender Systems [19.006098059760305]
Reinforcement Learning-Based Recommender Systems(RS)は、長期のユーザエンゲージメントを改善する能力において、ますます認識されている。
EasyRL4Recは、RLベースのRS用にカスタマイズされた、ユーザフレンドリーで効率的なライブラリである。
EasyRL4Recは5つの広く使用されているパブリックデータセット上に構築された軽量で多様なRL環境を備えている。
論文 参考訳(メタデータ) (2024-02-23T07:54:26Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Inverse Preference Learning: Preference-based RL without a Reward
Function [34.31087304327075]
Inverse Preference Learning (IPL) は、オフラインの嗜好データから学習するために特別に設計された。
我々の重要な洞察は、固定されたポリシーに対して、$Q$関数は報酬関数に関する全ての情報をエンコードし、効果的に交換可能であることである。
IPLは、トランスフォーマーベースおよび非マルコフ報酬関数を利用するより複雑なアプローチと比較して、競争性能が向上する。
論文 参考訳(メタデータ) (2023-05-24T17:14:10Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Deep Reinforcement Learning for Exact Combinatorial Optimization:
Learning to Branch [13.024115985194932]
本稿では、強化学習(RL)パラダイムを用いた最適化において、データラベリングと推論の問題を解決するための新しいアプローチを提案する。
我々は模倣学習を用いてRLエージェントをブートストラップし、PPO(Proximal Policy)を使用してグローバルな最適なアクションを探索する。
論文 参考訳(メタデータ) (2022-06-14T16:35:58Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z) - The Machine Learning for Combinatorial Optimization Competition (ML4CO):
Results and Insights [59.93939636422896]
ML4COは、キーコンポーネントを置き換えることで最先端の最適化問題を解決することを目的としている。
このコンペティションでは、最高の実現可能なソリューションを見つけること、最も厳密な最適性証明書を生成すること、適切なルーティング設定を提供すること、という3つの課題があった。
論文 参考訳(メタデータ) (2022-03-04T17:06:00Z) - CARL: A Benchmark for Contextual and Adaptive Reinforcement Learning [45.52724876199729]
本稿では、文脈RL問題に拡張されたよく知られたRL環境の集合であるCARLについて述べる。
政策学習から状態の表現学習と文脈を分離することで、より一般化が促進されるという最初の証拠を提供する。
論文 参考訳(メタデータ) (2021-10-05T15:04:01Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Reinforcement Learning for Combinatorial Optimization: A Survey [12.323976053967066]
最適化問題を解決する多くの伝統的なアルゴリズムは、解決を逐次構築する手工芸品を使用する。
強化学習(Reinforcement Learning, RL)は、エージェントを監督的または自己監督的な方法で訓練することにより、これらの検索を自動化する優れた代替手段を提案する。
論文 参考訳(メタデータ) (2020-03-07T16:19:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。