論文の概要: Symmetric Exploration in Combinatorial Optimization is Free!
- arxiv url: http://arxiv.org/abs/2306.01276v1
- Date: Fri, 2 Jun 2023 05:34:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 16:44:43.032992
- Title: Symmetric Exploration in Combinatorial Optimization is Free!
- Title(参考訳): 組合せ最適化における対称探索は無料です!
- Authors: Hyeonah Kim, Minsu Kim, Sungsoo Ahn, Jinkyoo Park
- Abstract要約: 深部強化学習(DRL)解法の性能向上のための「自由」手法を提案する。
私たちのキーとなるアイデアは、報酬変換によるDRLベースの最適化ソルバのトレーニングを強化することです。
提案手法は,最先端DRLアルゴリズムの効率性を向上する。
- 参考スコア(独自算出の注目度): 26.0985078141609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, deep reinforcement learning (DRL) has shown promise in solving
combinatorial optimization (CO) problems. However, they often require a large
number of evaluations on the objective function, which can be time-consuming in
real-world scenarios. To address this issue, we propose a "free" technique to
enhance the performance of any deep reinforcement learning (DRL) solver by
exploiting symmetry without requiring additional objective function
evaluations. Our key idea is to augment the training of DRL-based combinatorial
optimization solvers by reward-preserving transformations. The proposed
algorithm is likely to be impactful since it is simple, easy to integrate with
existing solvers, and applicable to a wide range of combinatorial optimization
tasks. Extensive empirical evaluations on NP-hard routing optimization,
scheduling optimization, and de novo molecular optimization confirm that our
method effortlessly improves the sample efficiency of state-of-the-art DRL
algorithms. Our source code is available at
https://github.com/kaist-silab/sym-rd.
- Abstract(参考訳): 近年,深い強化学習 (DRL) は組合せ最適化 (CO) 問題を解く上で有望であることが示されている。
しかし、それらはしばしば、現実のシナリオで時間を要する、客観的関数に関する多くの評価を必要とする。
この問題に対処するため、我々は、追加の目的関数評価を必要とせずに対称性を活用することにより、深い強化学習(DRL)解決器の性能を高める「自由」手法を提案する。
我々のキーとなる考え方は、報酬保存変換によるDRLに基づく組合せ最適化のトレーニングを強化することである。
提案手法は単純で,既存の解法と容易に統合でき,多種多様な組合せ最適化タスクに適用できるため,影響が大きいと考えられる。
NP-hardルーティング最適化、スケジューリング最適化、de novo分子最適化に関する大規模な実験により、我々の手法は最先端DRLアルゴリズムのサンプル効率を著しく改善することを確認した。
ソースコードはhttps://github.com/kaist-silab/sym-rdで入手できます。
関連論文リスト
- Adaptive teachers for amortized samplers [76.88721198565861]
償却推論(英: Amortized inference)とは、ニューラルネットワークなどのパラメトリックモデルをトレーニングし、正確なサンプリングが可能な所定の非正規化密度で分布を近似するタスクである。
オフ・ポリティクスのRLトレーニングは多様でハイ・リワードな候補の発見を促進するが、既存の手法は依然として効率的な探索の課題に直面している。
そこで本研究では,高次領域の優先順位付けにより,初等補正標本作成者(学生)の指導を指導する適応学習分布(教師)を提案する。
論文 参考訳(メタデータ) (2024-10-02T11:33:13Z) - LIRE: listwise reward enhancement for preference alignment [27.50204023448716]
本稿では、複数の応答のオフライン報酬を合理化されたリストワイズフレームワークに組み込む、勾配に基づく報酬最適化手法を提案する。
LIREは実装が簡単で、最小限のパラメータチューニングを必要とし、ペアワイズパラダイムとシームレスに整合する。
実験の結果,LIREは対話タスクや要約タスクのベンチマークにおいて,既存のメソッドよりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-22T10:21:50Z) - Adaptive trajectory-constrained exploration strategy for deep
reinforcement learning [6.589742080994319]
深層強化学習 (DRL) は, まばらさや虚偽の報奨や大きな状態空間を持つタスクにおいて, ハード探索問題に対処する上で, 重大な課題に直面している。
DRLの最適軌道制約探索法を提案する。
2つの大きな2次元グリッドワールド迷路と複数のMuJoCoタスクについて実験を行った。
論文 参考訳(メタデータ) (2023-12-27T07:57:15Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Off-Policy RL Algorithms Can be Sample-Efficient for Continuous Control
via Sample Multiple Reuse [28.29966904455002]
固定されたサンプルバッチを複数回更新することで、外部のRLエージェントをトレーニングすることを提案する。
我々は,本手法のサンプル多重再利用(SMR)を命名し,SMRを用いたQ-ラーニングの特性を示す。
SMRは、評価されたタスクのほとんどにわたって、ベースメソッドのサンプル効率を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-29T03:25:22Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Controlled Deep Reinforcement Learning for Optimized Slice Placement [0.8459686722437155]
我々は、"Heuristally Assisted Deep Reinforcement Learning (HA-DRL)"と呼ばれるハイブリッドML-ヒューリスティックアプローチを提案する。
提案手法は,最近のDeep Reinforcement Learning (DRL) によるスライス配置と仮想ネットワーク埋め込み (VNE) に活用されている。
評価結果から,提案したHA-DRLアルゴリズムは,効率的なスライス配置ポリシーの学習を高速化できることが示された。
論文 参考訳(メタデータ) (2021-08-03T14:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。