Fugu-MT 論文翻訳(概要): Faults in Deep Reinforcement Learning Programs: A Taxonomy and A Detection Approach

論文の概要: Faults in Deep Reinforcement Learning Programs: A Taxonomy and A Detection Approach

arxiv url: http://arxiv.org/abs/2101.00135v3
Date: Sun, 28 Nov 2021 14:06:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-18 03:48:22.733714
Title: Faults in Deep Reinforcement Learning Programs: A Taxonomy and A Detection Approach
Title（参考訳）: 深層強化学習プログラムにおける障害:分類と検出アプローチ
Authors: Amin Nikanjam, Mohammad Mehdi Morovati, Foutse Khomh, Houssem Ben Braiek
Abstract要約: 深層強化学習(Deep Reinforcement Learning, DRL)は、強化学習(RL)分野における深層学習の応用である。本稿では,DRLプログラムで発生した障害を分類する最初の試みについて述べる。 DRLプログラムのメタモデルを定義し,モデルに基づく故障検出手法であるDRLinterを開発した。
参考スコア（独自算出の注目度）: 13.57291726431012
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A growing demand is witnessed in both industry and academia for employing Deep Learning (DL) in various domains to solve real-world problems. Deep Reinforcement Learning (DRL) is the application of DL in the domain of Reinforcement Learning (RL). Like any software systems, DRL applications can fail because of faults in their programs. In this paper, we present the first attempt to categorize faults occurring in DRL programs. We manually analyzed 761 artifacts of DRL programs (from Stack Overflow posts and GitHub issues) developed using well-known DRL frameworks (OpenAI Gym, Dopamine, Keras-rl, Tensorforce) and identified faults reported by developers/users. We labeled and taxonomized the identified faults through several rounds of discussions. The resulting taxonomy is validated using an online survey with 19 developers/researchers. To allow for the automatic detection of faults in DRL programs, we have defined a meta-model of DRL programs and developed DRLinter, a model-based fault detection approach that leverages static analysis and graph transformations. The execution flow of DRLinter consists in parsing a DRL program to generate a model conforming to our meta-model and applying detection rules on the model to identify faults occurrences. The effectiveness of DRLinter is evaluated using 15 synthetic DRLprograms in which we injected faults observed in the analyzed artifacts of the taxonomy. The results show that DRLinter can successfully detect faults in all synthetic faulty programs.
Abstract（参考訳）: 産業とアカデミアの両方において、実世界の問題を解決するためにさまざまなドメインでディープラーニング(dl)を採用するという需要が高まっている。深層強化学習(Deep Reinforcement Learning、DRL)は、強化学習(RL)分野におけるDLの応用である。他のソフトウェアシステムと同様に、DRLアプリケーションはプログラムの欠陥のために失敗することがある。本稿では,DRLプログラムで発生する障害を分類する最初の試みを示す。私たちは、よく知られたDRLフレームワーク(OpenAI Gym、Dopamine、Keras-rl、Tensorforce)を使用して開発されたDRLプログラムの761のアーティファクト(Stack OverflowポストとGitHubイシューから)を手作業で分析し、開発者やユーザによって報告された障害を特定しました。我々はいくつかの議論を通じて、特定された欠陥をラベル付けし分類した。結果として得られた分類は、19人の開発者/研究者によるオンライン調査によって検証される。 DRLプログラムにおける障害の自動検出を可能にするため,DRLプログラムのメタモデルを定義し,静的解析とグラフ変換を利用したモデルに基づく障害検出手法であるDRLinterを開発した。 DRLinterの実行フローは、DRLプログラムを解析してメタモデルに準拠したモデルを生成し、モデルに検出ルールを適用して障害発生を識別する。 DRLinterの有効性を15種類の合成DRLプログラムを用いて評価し,解析された分類学の成果物に欠陥を注入した。その結果, DRLinterは全人工故障プログラムの故障を検知できることがわかった。

関連論文リスト

Unsupervised Data Generation for Offline Reinforcement Learning: A Perspective from Model [57.20064815347607]
オフライン強化学習(RL)は、最近RL研究者から関心が高まりつつある。オフラインRLの性能は、オンラインRLのフィードバックによって修正できる配布外問題に悩まされる。本稿では、まず、バッチデータとオフラインRLアルゴリズムの性能を理論的に橋渡しする。タスクに依存しない環境では、教師なしのRLによって訓練された一連のポリシーは、パフォーマンスギャップにおける最悪の後悔を最小限に抑えることができることを示す。
論文参考訳（メタデータ） (2025-06-24T14:08:36Z)
Maximizing Confidence Alone Improves Reasoning [48.83927980325788]
RENT: エントロピー最小化による強化学習(Reinforcement Learning via Entropy Minimization)は、完全な教師なしのRL手法であり、外部の報酬や地道的な回答を必要としない。得られた回答に高いモデル信頼をもたらす思考の連鎖を強化することで、モデルは推論能力を向上させる。
論文参考訳（メタデータ） (2025-05-28T17:59:37Z)
Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文参考訳（メタデータ） (2025-04-10T17:15:53Z)
Toward Debugging Deep Reinforcement Learning Programs with RLExplorer [19.91393937968652]
DRLベースのソフトウェアシステムにおける最初の故障診断手法であるRLExplorerを提案する。 RLExplorerは自動的にトレーニングトレースを監視し、DRL学習ダイナミクスの特性に基づいて診断ルーチンを実行する。そして、これらの診断の結果を、理論的概念、推奨プラクティス、潜在的な解決策をカバーする警告として記録する。
論文参考訳（メタデータ） (2024-10-06T01:01:21Z)
Generative AI for Deep Reinforcement Learning: Framework, Analysis, and Use Cases [60.30995339585003]
深部強化学習(DRL)は様々な分野に広く適用されており、優れた成果を上げている。 DRLは、サンプル効率の低下や一般化の低さなど、いくつかの制限に直面している。本稿では、これらの問題に対処し、DRLアルゴリズムの性能を向上させるために、生成AI(GAI)を活用する方法について述べる。
論文参考訳（メタデータ） (2024-05-31T01:25:40Z)
Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文参考訳（メタデータ） (2024-02-07T21:58:40Z)
Utilizing Explainability Techniques for Reinforcement Learning Model Assurance [42.302469854610315]
説明可能な強化学習(XRL)は、深層強化学習(DRL)モデルの意思決定プロセスに透明性を提供する。本稿では,オープンソースのPythonライブラリであるARLIN (Assured RL Model Interrogation) Toolkitを紹介する。
論文参考訳（メタデータ） (2023-11-27T14:02:47Z)
ORL-AUDITOR: Dataset Auditing in Offline Deep Reinforcement Learning [42.87245000172943]
オフラインの深層強化学習(オフラインDRL)は、事前にコンパイルされたデータセットのモデルをトレーニングするために頻繁に使用される。オフラインDRLシナリオを対象とした最初のトラジェクトリレベルのデータセット監査機構であるORL-AUDITORを提案する。複数のオフラインDRLモデルとタスクに対する実験により、監査精度が95%以上、偽陽性率が2.88%未満であるORL-AUDITORの有効性が示された。
論文参考訳（メタデータ） (2023-09-06T15:28:43Z)
Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。本研究では, MRL の頑健な目標を制御レベルで定義する。ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文参考訳（メタデータ） (2023-01-26T14:54:39Z)
A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。 RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文参考訳（メタデータ） (2023-01-19T12:01:41Z)
A Comparison of Reinforcement Learning Frameworks for Software Testing Tasks [14.22330197686511]
Deep Reinforcement Learning (DRL)は、ゲームテスト、回帰テスト、テストケースの優先順位付けといった複雑なテストタスクに成功している。 DRLフレームワークは、DRLアプリケーションの開発を容易にし、高速化するために、十分に保守された実装されたDRLアルゴリズムを提供する。 DRLフレームワークにおける実装アルゴリズムの有効性と性能を実証的に評価する研究はない。
論文参考訳（メタデータ） (2022-08-25T14:52:16Z)
A Search-Based Testing Approach for Deep Reinforcement Learning Agents [1.1580916951856255]
本稿では、DRLエージェントのポリシーをテストするために、検索に基づく強化学習エージェント(STARLA)のテスト手法を提案する。我々は、機械学習モデルと専用の遺伝的アルゴリズムを使用して、故障エピソードに対する探索を絞り込みます。
論文参考訳（メタデータ） (2022-06-15T20:51:33Z)
Automated Reinforcement Learning (AutoRL): A Survey and Open Problems [92.73407630874841]
AutoRL(Automated Reinforcement Learning)には、AutoMLの標準的なアプリケーションだけでなく、RL特有の課題も含まれている。我々は共通の分類法を提供し、各領域を詳細に議論し、今後の研究者にとって関心のあるオープンな問題を提起する。
論文参考訳（メタデータ） (2022-01-11T12:41:43Z)
RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。 RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文参考訳（メタデータ） (2020-06-24T17:14:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。