論文の概要: Reward Augmentation in Reinforcement Learning for Testing Distributed Systems
- arxiv url: http://arxiv.org/abs/2409.02137v1
- Date: Mon, 2 Sep 2024 15:07:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 21:50:21.119444
- Title: Reward Augmentation in Reinforcement Learning for Testing Distributed Systems
- Title(参考訳): 分散システムテストのための強化学習におけるReward Augmentation
- Authors: Andrea Borgarelli, Constantin Enea, Rupak Majumdar, Srinidhi Nagendra,
- Abstract要約: 人気のある分散プロトコル実装のバグは、人気のあるインターネットサービスにおける多くのダウンタイムの源となっている。
本稿では,強化学習に基づく分散プロトコル実装のためのランダム化テスト手法について述べる。
お互いに構築する2つの異なるテクニックを示します。
- 参考スコア(独自算出の注目度): 6.0560257343687995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bugs in popular distributed protocol implementations have been the source of many downtimes in popular internet services. We describe a randomized testing approach for distributed protocol implementations based on reinforcement learning. Since the natural reward structure is very sparse, the key to successful exploration in reinforcement learning is reward augmentation. We show two different techniques that build on one another. First, we provide a decaying exploration bonus based on the discovery of new states -- the reward decays as the same state is visited multiple times. The exploration bonus captures the intuition from coverage-guided fuzzing of prioritizing new coverage points; in contrast to other schemes, we show that taking the maximum of the bonus and the Q-value leads to more effective exploration. Second, we provide waypoints to the algorithm as a sequence of predicates that capture interesting semantic scenarios. Waypoints exploit designer insight about the protocol and guide the exploration to ``interesting'' parts of the state space. Our reward structure ensures that new episodes can reliably get to deep interesting states even without execution caching. We have implemented our algorithm in Go. Our evaluation on three large benchmarks (RedisRaft, Etcd, and RSL) shows that our algorithm can significantly outperform baseline approaches in terms of coverage and bug finding.
- Abstract(参考訳): 人気のある分散プロトコル実装のバグは、人気のあるインターネットサービスにおける多くのダウンタイムの源となっている。
本稿では,強化学習に基づく分散プロトコル実装のためのランダム化テスト手法について述べる。
自然報酬構造は非常に希少であるため、強化学習における探索の成功の鍵は報酬増強である。
お互いに構築する2つの異なるテクニックを示します。
まず、新しい状態の発見に基づいて崩壊する探索ボーナスを提供する -- 同じ状態が何度も訪れると、報酬は崩壊する。
探索ボーナスは、新たなカバレッジポイントの優先順位付けによるカバレッジ誘導ファジィングからの直感を捉え、他のスキームとは対照的に、ボーナスの最大値とQ値の取得がより効果的な探索につながることを示す。
第2に、興味深いセマンティックシナリオをキャプチャする述語列として、アルゴリズムのウェイポイントを提供する。
Waypointは、プロトコルに関するデザイナの洞察を利用して、状態空間の‘興味深い’部分に探索を誘導する。
我々の報酬構造は、新しいエピソードがキャッシュを実行せずに確実に深い興味深い状態に到達できるようにします。
アルゴリズムをGoで実装しました。
RedisRaft, Etcd, RSLの3つの大規模ベンチマークによる評価から, このアルゴリズムは, カバレッジとバグ発見の点で, ベースラインアプローチを著しく上回っていることが示された。
関連論文リスト
- STARC: A General Framework For Quantifying Differences Between Reward
Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Flipping Coins to Estimate Pseudocounts for Exploration in Reinforcement
Learning [20.0888026410406]
我々は,Rademacher分布の標本を平均化することにより,カウントを導出できることを示す。
提案手法は, 従来よりも地中訪問回数の低減に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-06-05T18:56:48Z) - Learning in Sparse Rewards settings through Quality-Diversity algorithms [1.4881159885040784]
この論文は、品質多様性(QD)アルゴリズムによるスパース報酬の問題に焦点を当てている。
論文の最初の部分は、ポリシーの多様性を評価する空間の表現を学ぶことに焦点を当てている。
この論文はSERENEアルゴリズムを導入し、探索空間の興味深い部分に集中する手法である。
論文 参考訳(メタデータ) (2022-03-02T11:02:34Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z) - Exploring Unknown States with Action Balance [48.330318997735574]
探索は強化学習の鍵となる問題である。
次状態ボーナス法は、エージェントが既知の州を探索する際に過度に注意を払うよう強制する。
本研究では,与えられた状態における各行動を選択する頻度のバランスをとるアクションバランス探索を提案する。
論文 参考訳(メタデータ) (2020-03-10T03:32:28Z) - Reward-Free Exploration for Reinforcement Learning [82.3300753751066]
探索の課題を分離する「逆フリーなRL」フレームワークを提案する。
我々は,$tildemathcalO(S2Amathrmpoly(H)/epsilon2)$の探索を効率的に行うアルゴリズムを提案する。
また、ほぼ一致する$Omega(S2AH2/epsilon2)$ lower boundを与え、この設定でアルゴリズムのほぼ最適性を示す。
論文 参考訳(メタデータ) (2020-02-07T14:03:38Z) - Long-Term Visitation Value for Deep Exploration in Sparse Reward
Reinforcement Learning [34.38011902445557]
報酬の少ない強化学習は、依然としてオープンな課題である。
本稿では,長期訪問数を用いて,今後の探査行動を計画する新しいアプローチを提案する。
報酬と力学のモデルを使用する既存の方法とは対照的に、我々のアプローチは非政治的でモデルなしです。
論文 参考訳(メタデータ) (2020-01-01T01:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。