論文の概要: Controlling Continuous Relaxation for Combinatorial Optimization
- arxiv url: http://arxiv.org/abs/2309.16965v2
- Date: Sat, 3 Feb 2024 15:42:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 04:52:27.683949
- Title: Controlling Continuous Relaxation for Combinatorial Optimization
- Title(参考訳): 組合せ最適化のための連続緩和制御
- Authors: Yuma Ichikawa
- Abstract要約: CO問題に対する教師なし学習(UL)に基づく解法が提案されている。
これらの解法は、CO目標を直接最適化することで解を出力するニューラルネットワークを訓練する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motivated by developments in machine learning technologies, unsupervised
learning (UL)-based solvers for CO problems have recently been proposed. These
solvers train a neural network that outputs a solution by optimizing the CO
objective directly. UL-based solvers have several advantages over traditional
methods. However, various studies have shown that these solvers underperform
compared to greedy algorithms for complex CO problems. In addition, these
solvers employ a continuous relaxation strategy; thus, post-learning rounding
from the continuous space back to the original discrete space is required,
undermining the robustness of the results. To address these problems, we
propose the continuous relaxation annealing (CRA) strategy. The CRA introduces
a penalty term to control the continuity and discreteness of the relaxed
variables and eliminate local optima. In addition, the CRA implements an
annealing process for the penalty term that initially prioritizes continuous
solutions and progressively transitions towards discreet solutions until the
relaxed variables become nearly discrete, eliminating the artificial rounding.
Experimental results demonstrate that the CRA significantly enhances the
UL-based solvers, outperforming both existing UL-based solvers and greedy
algorithms for complex CO problems.
- Abstract(参考訳): 機械学習技術の発展により、CO問題に対する教師なし学習(UL)ベースの解決器が最近提案されている。
これらの解法は、CO目標を直接最適化することで解を出力するニューラルネットワークを訓練する。
ULベースの解法は従来の方法よりもいくつかの利点がある。
しかし、様々な研究により、これらの解法は複雑なCO問題に対する欲求的アルゴリズムに比べて性能が低いことが示されている。
さらに、これらの解法では連続緩和戦略が採用されており、学習後に連続空間から元の離散空間への丸めが必要となり、結果の堅牢性が損なわれる。
これらの問題に対処するため,我々はCRA(Continuous relaxation annealing)戦略を提案する。
CRAは、緩和された変数の連続性と離散性を制御し、局所最適性を排除するためのペナルティ項を導入する。
さらに、craはペナルティ項のアニーリングプロセスを実装し、最初に連続解を優先順位付けし、リラックスした変数がほぼ離散化するまで徐々に離散解へと移行し、人工的な丸みを取り除く。
実験の結果、CRAはULベースの解法を著しく向上させ、複雑なCO問題に対して既存のULベースの解法とグリージーアルゴリズムの両方より優れていることが示された。
関連論文リスト
- Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Continuous Tensor Relaxation for Finding Diverse Solutions in
Combinatorial Optimization Problems [0.8158530638728501]
本研究では,教師なし学習に基づくCOソルバのための連続緩和アニーリング(CTRA)を提案する。
CTRAは、離散決定変数を連続テンソルに変換する連続緩和アプローチを拡張して、様々な問題に同時に対処する。
数値実験により、CTRAにより、ULベースの解法は既存のULベースの解法よりもはるかに高速に不均一でペナルティに分散した解を見つけることができることが示された。
論文 参考訳(メタデータ) (2024-02-03T15:31:05Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - A Single-Loop Deep Actor-Critic Algorithm for Constrained Reinforcement
Learning with Provable Convergence [8.191815417711194]
Deep Actorriticアルゴリズムは、ActorriticとDeep Neural Network(DNN)を組み合わせる
本稿では,一般対話のための単一ループアクタ・クライブアルゴリズムを提案する。
SL-Criticアルゴリズムは、優れた学習近似と優れた性能に収束することを示す。
論文 参考訳(メタデータ) (2023-06-10T10:04:54Z) - Evolving Constrained Reinforcement Learning Policy [5.4444944707433525]
本稿では,報酬と制約違反とを適応的にバランスする,進化的制約付き強化学習アルゴリズムを提案する。
ロボット制御ベンチマーク実験により、ECRLは最先端のアルゴリズムと比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-04-19T03:54:31Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Instance-Dependent Confidence and Early Stopping for Reinforcement
Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。
この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。
次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文 参考訳(メタデータ) (2022-01-21T04:25:35Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Constrained Combinatorial Optimization with Reinforcement Learning [0.30938904602244344]
本稿では,RL(Deep Reinforcement Learning)を用いた制約付き最適化問題に対処する枠組みを提案する。
我々は、その定式化における制約に対処するために、Neural Combinatorial Optimization(NCO)理論を拡張した。
その文脈では、ソリューションは環境との相互作用に基づいて反復的に構築されます。
論文 参考訳(メタデータ) (2020-06-22T03:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。