論文の概要: Dynamic operator management in meta-heuristics using reinforcement learning: an application to permutation flowshop scheduling problems
- arxiv url: http://arxiv.org/abs/2408.14864v1
- Date: Tue, 27 Aug 2024 08:38:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 14:33:22.608569
- Title: Dynamic operator management in meta-heuristics using reinforcement learning: an application to permutation flowshop scheduling problems
- Title(参考訳): 強化学習を用いたメタヒューリスティックスにおける動的演算子管理 : 置換フローホップスケジューリング問題への応用
- Authors: Maryam Karimi Mamaghan, Mehrdad Mohammadi, Wout Dullaert, Daniele Vigo, Amir Pirayesh,
- Abstract要約: 本研究では,メタヒューリスティックスにおける探索演算子のポートフォリオを動的に管理する強化学習に基づくフレームワークを開発する。
動的に更新されたポートフォリオから最も適切な演算子を選択するために、Qラーニングに基づく適応演算子選択機構を用いる。
提案するフレームワークの性能は,置換フローホップスケジューリング問題への適用を通して解析する。
- 参考スコア(独自算出の注目度): 0.3495246564946556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study develops a framework based on reinforcement learning to dynamically manage a large portfolio of search operators within meta-heuristics. Using the idea of tabu search, the framework allows for continuous adaptation by temporarily excluding less efficient operators and updating the portfolio composition during the search. A Q-learning-based adaptive operator selection mechanism is used to select the most suitable operator from the dynamically updated portfolio at each stage. Unlike traditional approaches, the proposed framework requires no input from the experts regarding the search operators, allowing domain-specific non-experts to effectively use the framework. The performance of the proposed framework is analyzed through an application to the permutation flowshop scheduling problem. The results demonstrate the superior performance of the proposed framework against state-of-the-art algorithms in terms of optimality gap and convergence speed.
- Abstract(参考訳): 本研究では,メタヒューリスティックスにおける探索演算子のポートフォリオを動的に管理する強化学習に基づくフレームワークを開発する。
タブ検索の概念を用いることで、効率の悪い演算子を一時的に排除し、探索中にポートフォリオ構成を更新することで、継続的な適応を可能にする。
Q学習に基づく適応演算子選択機構を用いて、各段階において動的に更新されたポートフォリオから最も適切な演算子を選択する。
従来のアプローチとは異なり、提案フレームワークは、検索オペレータに関する専門家からの入力を必要としないため、ドメイン固有の非専門家がこのフレームワークを効果的に利用することができる。
提案するフレームワークの性能は,置換フローホップスケジューリング問題への適用を通して解析する。
その結果、最適性ギャップと収束速度の観点から、最先端のアルゴリズムに対する提案手法の優れた性能を示した。
関連論文リスト
- Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z) - Constrained Multi-objective Optimization with Deep Reinforcement Learning Assisted Operator Selection [28.088046969822543]
本研究では,Deep Reinforcement Learningを支援するオンラインオペレータ選択フレームワークを提案する。
提案手法は,現在の状況に応じて個体群の改善を最大化する演算子を適応的に選択することができる。
このフレームワークは4つの人気のあるCMOEAに組み込まれ、42のベンチマーク問題で評価されている。
論文 参考訳(メタデータ) (2024-01-15T09:51:19Z) - Graph Reinforcement Learning for Operator Selection in the ALNS
Metaheuristic [0.0]
我々はマルコフ決定過程として作用素の選択を定式化する。
本稿では,ディープ強化学習とグラフニューラルネットワークに基づく実践的アプローチを提案する。
論文 参考訳(メタデータ) (2023-02-28T15:39:42Z) - Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。
本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文 参考訳(メタデータ) (2023-01-28T01:50:42Z) - Socio-cognitive Optimization of Time-delay Control Problems using
Evolutionary Metaheuristics [89.24951036534168]
メタヒューリスティックス(Metaheuristics)は、古典的なアプローチでは解決できない難解な問題を解くために使用される普遍的な最適化アルゴリズムである。
本稿では,キャストに基づく新しい社会認知メタヒューリスティックの構築を目標とし,このアルゴリズムのいくつかのバージョンを時間遅延システムモデルの最適化に適用する。
論文 参考訳(メタデータ) (2022-10-23T22:21:10Z) - Option-Aware Adversarial Inverse Reinforcement Learning for Robotic
Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。
逆逆強化学習に基づく新しいHILアルゴリズムを開発した。
また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-05T00:28:26Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Neural Combinatorial Optimization: a New Player in the Field [69.23334811890919]
本稿では,ニューラルネットワークに基づくアルゴリズムの古典的最適化フレームワークへの導入に関する批判的分析を行う。
性能, 転送可能性, 計算コスト, 大規模インスタンスなど, これらのアルゴリズムの基本的側面を分析するために, 総合的研究を行った。
論文 参考訳(メタデータ) (2022-05-03T07:54:56Z) - Portfolio Search and Optimization for General Strategy Game-Playing [58.896302717975445]
ローリングホライズン進化アルゴリズムに基づく最適化とアクション選択のための新しいアルゴリズムを提案する。
エージェントのパラメータとポートフォリオセットの最適化について,N-tuple Bandit Evolutionary Algorithmを用いて検討する。
エージェントの性能分析により,提案手法はすべてのゲームモードによく一般化し,他のポートフォリオ手法よりも優れることが示された。
論文 参考訳(メタデータ) (2021-04-21T09:28:28Z) - NOVAS: Non-convex Optimization via Adaptive Stochastic Search for
End-to-End Learning and Control [22.120942106939122]
本稿では,一般のニューラルネットワーク最適化操作において,適応探索をビルディングブロックとして用いることを提案する。
我々は、合成エネルギーベースの構造化タスクにおける既存の2つの代替案に対してベンチマークを行い、最適制御アプリケーションでの使用例を示す。
論文 参考訳(メタデータ) (2020-06-22T03:40:36Z) - Learning Heuristic Selection with Dynamic Algorithm Configuration [44.91083687014879]
計画システムの動的選択力学に動的アルゴリズム構成を用いることができることを示す。
提案手法は,既存のアプローチよりも一般化し,ドメイン探索の性能を指数関数的に向上させることができることを示す。
論文 参考訳(メタデータ) (2020-06-15T09:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。