論文の概要: Toward Debugging Deep Reinforcement Learning Programs with RLExplorer
- arxiv url: http://arxiv.org/abs/2410.04322v1
- Date: Sun, 6 Oct 2024 01:01:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 08:30:03.542368
- Title: Toward Debugging Deep Reinforcement Learning Programs with RLExplorer
- Title(参考訳): RLExplorerによる深層強化学習プログラムのデバッグに向けて
- Authors: Rached Bouchoucha, Ahmed Haj Yahmed, Darshan Patil, Janarthanan Rajendran, Amin Nikanjam, Sarath Chandar, Foutse Khomh,
- Abstract要約: DRLベースのソフトウェアシステムにおける最初の故障診断手法であるRLExplorerを提案する。
RLExplorerは自動的にトレーニングトレースを監視し、DRL学習ダイナミクスの特性に基づいて診断ルーチンを実行する。
そして、これらの診断の結果を、理論的概念、推奨プラクティス、潜在的な解決策をカバーする警告として記録する。
- 参考スコア(独自算出の注目度): 19.91393937968652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (DRL) has shown success in diverse domains such as robotics, computer games, and recommendation systems. However, like any other software system, DRL-based software systems are susceptible to faults that pose unique challenges for debugging and diagnosing. These faults often result in unexpected behavior without explicit failures and error messages, making debugging difficult and time-consuming. Therefore, automating the monitoring and diagnosis of DRL systems is crucial to alleviate the burden on developers. In this paper, we propose RLExplorer, the first fault diagnosis approach for DRL-based software systems. RLExplorer automatically monitors training traces and runs diagnosis routines based on properties of the DRL learning dynamics to detect the occurrence of DRL-specific faults. It then logs the results of these diagnoses as warnings that cover theoretical concepts, recommended practices, and potential solutions to the identified faults. We conducted two sets of evaluations to assess RLExplorer. Our first evaluation of faulty DRL samples from Stack Overflow revealed that our approach can effectively diagnose real faults in 83% of the cases. Our second evaluation of RLExplorer with 15 DRL experts/developers showed that (1) RLExplorer could identify 3.6 times more defects than manual debugging and (2) RLExplorer is easily integrated into DRL applications.
- Abstract(参考訳): 深層強化学習(DRL)は、ロボット工学、コンピュータゲーム、レコメンデーションシステムなど様々な分野で成功している。
しかし、他のソフトウェアシステムと同様に、DRLベースのソフトウェアシステムは、デバッグと診断に固有の課題を生じさせるフォールトに影響を受けやすい。
これらの障害はしばしば、明示的な失敗やエラーメッセージなしで予期しない振る舞いを生じさせ、デバッグが難しく、時間がかかります。
したがって、DRLシステムの監視と診断の自動化は、開発者の負担を軽減するために重要である。
本稿では,DRLベースのソフトウェアシステムにおける最初の故障診断手法であるRLExplorerを提案する。
RLExplorerは自動的にトレーニングトレースを監視し、DRL学習ダイナミクスの特性に基づいて診断ルーチンを実行し、DRL固有の障害の発生を検出する。
そして、これらの診断の結果を、理論的概念、推奨プラクティス、そして特定された障害に対する潜在的な解決策をカバーする警告として記録する。
我々はRLExplorerを評価するために2つの評価を行った。
Stack Overflowの障害DRLサンプルを初めて評価したところ,83%の症例において,本手法が実際の障害を効果的に診断できることが判明した。
RLExplorerを15名のDRL専門家/開発者で評価したところ,(1)RLExplorerは手動デバッグの3.6倍の欠陥を識別でき,(2)RLExplorerは容易にDRLアプリケーションに統合できることがわかった。
関連論文リスト
- Unsupervised-to-Online Reinforcement Learning [59.910638327123394]
Unsupervised-to-online RL (U2O RL) は、ドメイン固有の教師なしオフラインRLを非教師なしオフラインRLに置き換える。
U2O RLは、複数の下流タスクのために訓練済みのモデルを再利用できるだけでなく、より良い表現も学べる。
U2O RLは、従来のオフライン-オフラインのRLアプローチにマッチしたり、さらに性能が優れていることを実証的に実証する。
論文 参考訳(メタデータ) (2024-08-27T05:23:45Z) - Generative AI for Deep Reinforcement Learning: Framework, Analysis, and Use Cases [60.30995339585003]
深部強化学習(DRL)は様々な分野に広く適用されており、優れた成果を上げている。
DRLは、サンプル効率の低下や一般化の低さなど、いくつかの制限に直面している。
本稿では、これらの問題に対処し、DRLアルゴリズムの性能を向上させるために、生成AI(GAI)を活用する方法について述べる。
論文 参考訳(メタデータ) (2024-05-31T01:25:40Z) - SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores [13.948640763797776]
本稿では,RLトレーニングアプリケーションを汎用フレームワークに統合する,RLトレーニングのデータフローに関する新しい抽象化を提案する。
スケーラブルで効率的で分散的なRLシステムであるReaLly scalableRLを開発した。
SRLは15k以上のCPUコアでRL実験を大規模に実施した初めての学術コミュニティである。
論文 参考訳(メタデータ) (2023-06-29T05:16:25Z) - Testing of Deep Reinforcement Learning Agents with Surrogate Models [10.243488468625786]
近年,Deep Reinforcement Learning (DRL) が研究コミュニティから注目を集めている。
本稿では,このようなエージェントを探索的に検証する手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T06:21:39Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - A Comparison of Reinforcement Learning Frameworks for Software Testing
Tasks [14.22330197686511]
Deep Reinforcement Learning (DRL)は、ゲームテスト、回帰テスト、テストケースの優先順位付けといった複雑なテストタスクに成功している。
DRLフレームワークは、DRLアプリケーションの開発を容易にし、高速化するために、十分に保守された実装されたDRLアルゴリズムを提供する。
DRLフレームワークにおける実装アルゴリズムの有効性と性能を実証的に評価する研究はない。
論文 参考訳(メタデータ) (2022-08-25T14:52:16Z) - Automated Reinforcement Learning (AutoRL): A Survey and Open Problems [92.73407630874841]
AutoRL(Automated Reinforcement Learning)には、AutoMLの標準的なアプリケーションだけでなく、RL特有の課題も含まれている。
我々は共通の分類法を提供し、各領域を詳細に議論し、今後の研究者にとって関心のあるオープンな問題を提起する。
論文 参考訳(メタデータ) (2022-01-11T12:41:43Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - Faults in Deep Reinforcement Learning Programs: A Taxonomy and A
Detection Approach [13.57291726431012]
深層強化学習(Deep Reinforcement Learning, DRL)は、強化学習(RL)分野における深層学習の応用である。
本稿では,DRLプログラムで発生した障害を分類する最初の試みについて述べる。
DRLプログラムのメタモデルを定義し,モデルに基づく故障検出手法であるDRLinterを開発した。
論文 参考訳(メタデータ) (2021-01-01T01:49:03Z) - Auto-Agent-Distiller: Towards Efficient Deep Reinforcement Learning
Agents via Neural Architecture Search [14.292072505007974]
本稿では,様々なタスクに対して最適なDRLエージェントを自動検索するAuto-Agent-Distiller (A2D) フレームワークを提案する。
我々は,バニラNASがDRLトレーニング安定性のばらつきが大きいため,最適なエージェントの探索に容易に失敗できることを実証した。
そこで我々は,教師エージェントのアクターと評論家の両方から知識を抽出し,探索プロセスを安定化し,探索エージェントの最適性を向上する新しい蒸留機構を開発する。
論文 参考訳(メタデータ) (2020-12-24T04:07:36Z) - Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。
現在の最先端の手法に匹敵する幅と精度を実現している。
論文 参考訳(メタデータ) (2020-07-09T13:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。