論文の概要: Fuzzy Logic Guided Reward Function Variation: An Oracle for Testing Reinforcement Learning Programs
- arxiv url: http://arxiv.org/abs/2406.19812v1
- Date: Fri, 28 Jun 2024 10:41:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 17:10:02.969567
- Title: Fuzzy Logic Guided Reward Function Variation: An Oracle for Testing Reinforcement Learning Programs
- Title(参考訳): Fuzzy Logicd Guided Reward Function Variation: 強化学習プログラムをテストするOracle
- Authors: Shiyu Zhang, Haoyang Song, Qixin Wang, Yu Pei,
- Abstract要約: 本稿では,ファジィ論理を用いたRL特性を利用した自動オラクル手法を提案する。
我々のオラクルは、エージェントの行動コンプライアンスと報酬ポリシーを定量化し、トレーニングエピソードの傾向を分析します。
コンプライアンス傾向がRL特性に由来する期待に反した場合、RLプログラムを"バギー"とラベル付けする。
- 参考スコア(独自算出の注目度): 2.871991859211386
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement Learning (RL) has gained significant attention across various domains. However, the increasing complexity of RL programs presents testing challenges, particularly the oracle problem: defining the correctness of the RL program. Conventional human oracles struggle to cope with the complexity, leading to inefficiencies and potential unreliability in RL testing. To alleviate this problem, we propose an automated oracle approach that leverages RL properties using fuzzy logic. Our oracle quantifies an agent's behavioral compliance with reward policies and analyzes its trend over training episodes. It labels an RL program as "Buggy" if the compliance trend violates expectations derived from RL characteristics. We evaluate our oracle on RL programs with varying complexities and compare it with human oracles. Results show that while human oracles perform well in simpler testing scenarios, our fuzzy oracle demonstrates superior performance in complex environments. The proposed approach shows promise in addressing the oracle problem for RL testing, particularly in complex cases where manual testing falls short. It offers a potential solution to improve the efficiency, reliability, and scalability of RL program testing. This research takes a step towards automated testing of RL programs and highlights the potential of fuzzy logic-based oracles in tackling the oracle problem.
- Abstract(参考訳): 強化学習(RL)は様々な領域で注目されている。
しかし、RLプログラムの複雑さの増大は、特にオラクルの問題(RLプログラムの正確性の定義)に挑戦する。
従来の人間のオラクルは複雑さに対処するのに苦労し、RLテストにおける非効率性と潜在的な信頼性の欠如につながります。
この問題を軽減するために,ファジィ論理を用いたRL特性を利用した自動オラクル手法を提案する。
我々のオラクルは、エージェントの行動コンプライアンスと報酬ポリシーを定量化し、トレーニングエピソードの傾向を分析します。
コンプライアンス傾向がRL特性に由来する期待に反した場合、RLプログラムを"バギー"とラベル付けする。
複雑度の異なるRLプログラムのオラクルを評価し,それをヒトのオラクルと比較した。
その結果、人間のオラクルはより単純なテストシナリオでうまく機能する一方で、ファジィオラクルは複雑な環境で優れたパフォーマンスを示すことがわかった。
提案手法は、特に手動テストが不足する複雑なケースにおいて、RLテストのオラクル問題に対処する上で有望であることを示す。
RLプログラムテストの効率性、信頼性、スケーラビリティを改善するための潜在的なソリューションを提供する。
本研究は、RLプログラムの自動テストに向けて一歩踏み出し、オラクル問題に対処するファジィ論理に基づくオラクルの可能性を強調した。
関連論文リスト
- Reinforcement Learning with Intrinsically Motivated Feedback Graph for Lost-sales Inventory Control [12.832009040635462]
強化学習(Reinforcement Learning, RL)は, インベントリコントロール(IC)領域において, 優れた性能と汎用性があることが証明されている。
オンライン体験は、現実世界のアプリケーションで入手するのに費用がかかる。
オンライン体験は、ICの典型的な失業現象による真の需要を反映していない可能性がある。
論文 参考訳(メタデータ) (2024-06-26T13:52:47Z) - Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning [18.579378919155864]
我々は、追加のサンプルを必要としない最適化手順の非定常性を考慮するために、Adaptive $Q$Network (AdaQN)を提案する。
AdaQNは理論上は健全で、MuJoCo制御問題やAtari 2600のゲームで実証的に検証されている。
論文 参考訳(メタデータ) (2024-05-25T11:57:43Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - Blending Imitation and Reinforcement Learning for Robust Policy
Improvement [16.588397203235296]
イミテーション学習(Imitation Learning, IL)は、オークルを用いてサンプル効率を向上させる。
RPIはILの強みを生かし、オラクルクエリを使って探索を容易にする。
RPIは多様なブラックボックスのオラクルから学習し、改善することができる。
論文 参考訳(メタデータ) (2023-10-03T01:55:54Z) - Reinforcement Learning-assisted Evolutionary Algorithm: A Survey and
Research Opportunities [63.258517066104446]
進化的アルゴリズムの構成要素として統合された強化学習は,近年,優れた性能を示している。
本稿では,RL-EA 統合手法,RL-EA が採用する RL-EA 支援戦略,および既存文献による適用について論じる。
RL-EAセクションの適用例では、RL-EAのいくつかのベンチマークおよび様々な公開データセットにおける優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-25T15:06:05Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Automated Reinforcement Learning (AutoRL): A Survey and Open Problems [92.73407630874841]
AutoRL(Automated Reinforcement Learning)には、AutoMLの標準的なアプリケーションだけでなく、RL特有の課題も含まれている。
我々は共通の分類法を提供し、各領域を詳細に議論し、今後の研究者にとって関心のあるオープンな問題を提起する。
論文 参考訳(メタデータ) (2022-01-11T12:41:43Z) - ShinRL: A Library for Evaluating RL Algorithms from Theoretical and
Practical Perspectives [11.675763847424786]
本稿では、強化学習(RL)アルゴリズムを評価するためのオープンソースのライブラリであるShinRLを紹介する。
ShinRLは、RLアルゴリズムの振る舞いを掘り下げるためのメトリクスを計算することができるRL環境インターフェースを提供する。
ShinRLのこれらの2つの特徴を組み合わせることで、深層Q学習の振る舞いをより容易に分析できることを示す。
論文 参考訳(メタデータ) (2021-12-08T05:34:46Z) - A Simple Reward-free Approach to Constrained Reinforcement Learning [33.813302183231556]
本稿では, 報酬のないRLと制約付きRLを橋渡しする。特に, 報酬のないRLオラクルが与えられた場合, アプローチ性や制約付きRL問題は, サンプル複雑性において無視できるオーバーヘッドで直接解決できる, メタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-12T06:27:30Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。