論文の概要: Enhancing Sample Efficiency in Black-box Combinatorial Optimization via
Symmetric Replay Training
- arxiv url: http://arxiv.org/abs/2306.01276v2
- Date: Wed, 11 Oct 2023 08:57:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 03:42:54.532906
- Title: Enhancing Sample Efficiency in Black-box Combinatorial Optimization via
Symmetric Replay Training
- Title(参考訳): 対称リプレイトレーニングによるブラックボックス組合せ最適化におけるサンプル効率の向上
- Authors: Hyeonah Kim, Minsu Kim, Sungsoo Ahn, Jinkyoo Park
- Abstract要約: ブラックボックス最適化(ブラックボックスCO)は、医薬品の発見やハードウェア設計など、様々な産業分野で頻繁に見られる。
ブラックボックスのCO問題を解くことは、ブラックボックスの機能評価の膨大な解空間と資源集約性のために非常に困難である。
本稿では,関数評価の可用性を限定した効率的な探索法を提案する。
- 参考スコア(独自算出の注目度): 46.88972842049946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Black-box combinatorial optimization (black-box CO) is frequently encountered
in various industrial fields, such as drug discovery or hardware design.
Despite its widespread relevance, solving black-box CO problems is highly
challenging due to the vast combinatorial solution space and resource-intensive
nature of black-box function evaluations. These inherent complexities induce
significant constraints on the efficacy of existing deep reinforcement learning
(DRL) methods when applied to practical problem settings. For efficient
exploration with the limited availability of function evaluations, this paper
introduces a new generic method to enhance sample efficiency. We propose
symmetric replay training that leverages the high-reward samples and their
under-explored regions in the symmetric space. In replay training, the policy
is trained to imitate the symmetric trajectories of these high-rewarded
samples. The proposed method is beneficial for the exploration of highly
rewarded regions without the necessity for additional online interactions -
free. The experimental results show that our method consistently improves the
sample efficiency of various DRL methods on real-world tasks, including
molecular optimization and hardware design.
- Abstract(参考訳): ブラックボックス組合せ最適化(ブラックボックスCO)は、薬物発見やハードウェア設計など、様々な産業分野で頻繁に発生する。
ブラックボックスのCO問題を解くことは、ブラックボックスの機能評価の膨大な組み合わせ解空間と資源集約性のために非常に困難である。
これらの本質的複雑性は,既存の深層強化学習(drl)法の有効性に重大な制約を与える。
機能評価が限られた効率的な探索のために,本論文ではサンプル効率を向上させるための新しい汎用的手法を提案する。
対称空間における高次サンプルとその未探索領域を活用した対称リプレイトレーニングを提案する。
リプレイトレーニングでは、これらの高次サンプルの対称軌道を模倣するように訓練される。
提案手法は, 付加的なオンラインインタラクションフリーを必要とせず, 高報酬領域の探索に有用である。
実験により,本手法は分子最適化やハードウェア設計を含む実世界のタスクにおけるDRL法のサンプル効率を一貫して改善することを示した。
関連論文リスト
- Adaptive teachers for amortized samplers [76.88721198565861]
償却推論(英: Amortized inference)とは、ニューラルネットワークなどのパラメトリックモデルをトレーニングし、正確なサンプリングが可能な所定の非正規化密度で分布を近似するタスクである。
オフ・ポリティクスのRLトレーニングは多様でハイ・リワードな候補の発見を促進するが、既存の手法は依然として効率的な探索の課題に直面している。
そこで本研究では,高次領域の優先順位付けにより,初等補正標本作成者(学生)の指導を指導する適応学習分布(教師)を提案する。
論文 参考訳(メタデータ) (2024-10-02T11:33:13Z) - LIRE: listwise reward enhancement for preference alignment [27.50204023448716]
本稿では、複数の応答のオフライン報酬を合理化されたリストワイズフレームワークに組み込む、勾配に基づく報酬最適化手法を提案する。
LIREは実装が簡単で、最小限のパラメータチューニングを必要とし、ペアワイズパラダイムとシームレスに整合する。
実験の結果,LIREは対話タスクや要約タスクのベンチマークにおいて,既存のメソッドよりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-22T10:21:50Z) - Adaptive trajectory-constrained exploration strategy for deep
reinforcement learning [6.589742080994319]
深層強化学習 (DRL) は, まばらさや虚偽の報奨や大きな状態空間を持つタスクにおいて, ハード探索問題に対処する上で, 重大な課題に直面している。
DRLの最適軌道制約探索法を提案する。
2つの大きな2次元グリッドワールド迷路と複数のMuJoCoタスクについて実験を行った。
論文 参考訳(メタデータ) (2023-12-27T07:57:15Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Off-Policy RL Algorithms Can be Sample-Efficient for Continuous Control
via Sample Multiple Reuse [28.29966904455002]
固定されたサンプルバッチを複数回更新することで、外部のRLエージェントをトレーニングすることを提案する。
我々は,本手法のサンプル多重再利用(SMR)を命名し,SMRを用いたQ-ラーニングの特性を示す。
SMRは、評価されたタスクのほとんどにわたって、ベースメソッドのサンプル効率を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-29T03:25:22Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Controlled Deep Reinforcement Learning for Optimized Slice Placement [0.8459686722437155]
我々は、"Heuristally Assisted Deep Reinforcement Learning (HA-DRL)"と呼ばれるハイブリッドML-ヒューリスティックアプローチを提案する。
提案手法は,最近のDeep Reinforcement Learning (DRL) によるスライス配置と仮想ネットワーク埋め込み (VNE) に活用されている。
評価結果から,提案したHA-DRLアルゴリズムは,効率的なスライス配置ポリシーの学習を高速化できることが示された。
論文 参考訳(メタデータ) (2021-08-03T14:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。