論文の概要: On Reducing Undesirable Behavior in Deep Reinforcement Learning Models
- arxiv url: http://arxiv.org/abs/2309.02869v1
- Date: Wed, 6 Sep 2023 09:47:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 16:06:38.564581
- Title: On Reducing Undesirable Behavior in Deep Reinforcement Learning Models
- Title(参考訳): 深層強化学習モデルにおける望ましくない行動の低減について
- Authors: Ophir Carmel, Guy Katz
- Abstract要約: 本稿では,DRLベースのソフトウェアにおいて望ましくない動作を大幅に削減することを目的とした,新しいフレームワークを提案する。
我々のフレームワークは、エンジニアにそのような望ましくない振る舞いの理解可能な特徴を提供するのに役立ちます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) has proven extremely useful in a large
variety of application domains. However, even successful DRL-based software can
exhibit highly undesirable behavior. This is due to DRL training being based on
maximizing a reward function, which typically captures general trends but
cannot precisely capture, or rule out, certain behaviors of the system. In this
paper, we propose a novel framework aimed at drastically reducing the
undesirable behavior of DRL-based software, while maintaining its excellent
performance. In addition, our framework can assist in providing engineers with
a comprehensible characterization of such undesirable behavior. Under the hood,
our approach is based on extracting decision tree classifiers from erroneous
state-action pairs, and then integrating these trees into the DRL training
loop, penalizing the system whenever it performs an error. We provide a
proof-of-concept implementation of our approach, and use it to evaluate the
technique on three significant case studies. We find that our approach can
extend existing frameworks in a straightforward manner, and incurs only a
slight overhead in training time. Further, it incurs only a very slight hit to
performance, or even in some cases - improves it, while significantly reducing
the frequency of undesirable behavior.
- Abstract(参考訳): 深層強化学習(DRL)は様々な応用分野において非常に有用であることが証明されている。
しかし、成功したDRLベースのソフトウェアでさえ、非常に望ましくない振る舞いを示す。
これは、典型的には一般的な傾向を捉えるが、システムの特定の振る舞いを正確に捉えたり、排除したりできない報奨関数を最大化することに基づくdrlトレーニングである。
本稿では,DRLベースのソフトウェアにおいて,その性能を維持しつつ,望ましくない動作を大幅に削減することを目的とした新しいフレームワークを提案する。
さらに,我々のフレームワークは,このような望ましくない振る舞いの理解しやすい特徴を技術者に提供するのに役立てることができる。
我々のアプローチは、誤った状態-アクションペアから決定木分類器を抽出し、これらの木をdrlトレーニングループに統合し、エラーを発生させるたびにシステムをペナルティ化する。
我々は,本手法の概念実証実装を行い,その手法を3つの重要なケーススタディで評価する。
当社のアプローチでは、既存のフレームワークを簡単な方法で拡張することが可能で、トレーニング時間のオーバーヘッドはわずかです。
さらに、パフォーマンスに非常にわずかな打撃しかかからず、場合によっては改善されるが、望ましくない振る舞いの頻度は大幅に減少する。
関連論文リスト
- Human-Readable Programs as Actors of Reinforcement Learning Agents Using Critic-Moderated Evolution [4.831084635928491]
我々はTD3上に構築し、その批判をプログラムを合成する遺伝的アルゴリズムの客観的機能の基礎として利用する。
私たちのアプローチでは、単純なMean Squared Errorではなく、プログラムを実際の高い報酬に導いています。
論文 参考訳(メタデータ) (2024-10-29T10:57:33Z) - UDQL: Bridging The Gap between MSE Loss and The Optimal Value Function in Offline Reinforcement Learning [10.593924216046977]
まず,MSEによる過大評価現象を理論的に解析し,過大評価誤差の理論的上限を与える。
最後に、過小評価演算子と拡散ポリシーモデルに基づくオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T14:37:42Z) - Decomposing Control Lyapunov Functions for Efficient Reinforcement Learning [10.117626902557927]
現在の強化学習(RL)手法では、特定のタスクを学習するために大量のデータを必要とするため、エージェントをデプロイして実世界のアプリケーションにデータを収集する場合、不合理なコストが発生する。
本稿では,RL の報酬関数を補うために,CLF (Control Lyapunov Function) を導入して,サンプルの複雑さを低減した既存の作業から構築する。
提案手法は,最先端のソフト・アクター・クリティカル・アルゴリズムが必要とする実世界のデータの半分以下でクワッドコプターを着陸させることが可能であることを示す。
論文 参考訳(メタデータ) (2024-03-18T19:51:17Z) - Solving Offline Reinforcement Learning with Decision Tree Regression [0.0]
本研究は, オフライン強化学習問題に対して, 回帰タスクとして再検討することで, 新たなアプローチを提案する。
我々は、リターン条件付きとリターン重み付き決定ツリーポリシーの2つの異なるフレームワークを紹介します。
オフラインRLに対するこの改定されたアプローチに固有の単純化にもかかわらず、我々のエージェントは、少なくとも確立された手法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-01-21T23:50:46Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Flow to Control: Offline Reinforcement Learning with Lossless Primitive
Discovery [31.49638957903016]
オフライン強化学習(RL)により、エージェントはログデータから効果的に学習することができる。
提案手法はポリシーの表現能力に優れ,多くのタスクにおいて優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-12-02T11:35:51Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - DR3: Value-Based Deep Reinforcement Learning Requires Explicit
Regularization [125.5448293005647]
教師付き学習で見られるSGDの暗黙的な正則化効果が、オフラインの深いRLでは有害である可能性について論じる。
我々の理論的解析は、暗黙正則化の既存のモデルが時間差分学習に適用された場合、導出正規化器は退化解を好むことを示している。
我々は、この暗黙的正則化の望ましくない効果に対処する、DR3と呼ばれる単純で効果的な明示的正則化器を提案する。
論文 参考訳(メタデータ) (2021-12-09T06:01:01Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。