論文の概要: A Transferable and Automatic Tuning of Deep Reinforcement Learning for
Cost Effective Phishing Detection
- arxiv url: http://arxiv.org/abs/2209.09033v1
- Date: Mon, 19 Sep 2022 14:09:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 17:17:59.935423
- Title: A Transferable and Automatic Tuning of Deep Reinforcement Learning for
Cost Effective Phishing Detection
- Title(参考訳): コスト有効フィッシング検出のための深層強化学習の転送可能・自動チューニング
- Authors: Orel Lavie, Asaf Shabtai, Gilad Katz
- Abstract要約: 現実の課題の多くは、複数の補完的な学習モデルのアンサンブルを配置する必要がある。
Deep Reinforcement Learning (DRL) はコスト効率のよい代替手段であり、検出器は前者の出力に基づいて動的に選択される。
- 参考スコア(独自算出の注目度): 21.481974148873807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many challenging real-world problems require the deployment of ensembles
multiple complementary learning models to reach acceptable performance levels.
While effective, applying the entire ensemble to every sample is costly and
often unnecessary. Deep Reinforcement Learning (DRL) offers a cost-effective
alternative, where detectors are dynamically chosen based on the output of
their predecessors, with their usefulness weighted against their computational
cost. Despite their potential, DRL-based solutions are not widely used in this
capacity, partly due to the difficulties in configuring the reward function for
each new task, the unpredictable reactions of the DRL agent to changes in the
data, and the inability to use common performance metrics (e.g., TPR/FPR) to
guide the algorithm's performance. In this study we propose methods for
fine-tuning and calibrating DRL-based policies so that they can meet multiple
performance goals. Moreover, we present a method for transferring effective
security policies from one dataset to another. Finally, we demonstrate that our
approach is highly robust against adversarial attacks.
- Abstract(参考訳): 実世界の課題の多くは、許容できるパフォーマンスレベルに達するために複数の補完学習モデルをアンサンブルで展開する必要がある。
効果はあるものの、すべてのサンプルに全アンサンブルを適用するのは費用がかかり、しばしば不要である。
Deep Reinforcement Learning (DRL)は、前任者の出力に基づいて検出器を動的に選択し、その有用性はその計算コストに対して重み付けされる。
これらの可能性にもかかわらず、DRLベースのソリューションは、新しいタスクごとに報酬関数を設定するのが難しいこと、データの変更に対するDRLエージェントの予測不可能な反応、アルゴリズムのパフォーマンスを導くのに共通のパフォーマンス指標(例えばTPR/FPR)を使用することができないことなど、この能力では広く使われていない。
本研究では,DRLに基づくポリシーを微調整・校正し,複数の性能目標を達成する手法を提案する。
さらに,あるデータセットから別のデータセットへ効果的なセキュリティポリシーを転送する手法を提案する。
最後に、我々のアプローチは敵攻撃に対して非常に堅牢であることを示す。
関連論文リスト
- Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Robust Reinforcement Learning Objectives for Sequential Recommender
Systems [10.226091667719391]
注意に基づくシーケンシャルレコメンデーション手法は,過去のインタラクションからユーザの動的関心を正確に捉えることによって,有望な結果を示した。
近年, これらのモデルに強化学習(RL)を統合する研究が進められている。
RLアルゴリズムを採用することで、政治外のトレーニング、拡張可能なアクションスペースの導入、十分な報酬信号を備えたデータセットの不足といった課題が提示される。
論文 参考訳(メタデータ) (2023-05-30T08:09:08Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Generalized Policy Improvement Algorithms with Theoretically Supported
Sample Reuse [10.643269981555859]
本研究は,オンライン手法の政策改善保証とサンプル再利用の効率を両立させる汎用政策改善アルゴリズムのクラスを開発する。
本稿では,DeepMind Control Suiteの各種連続制御タスクの広範な実験分析を通じて,この新しいアルゴリズムの利点を実証する。
論文 参考訳(メタデータ) (2022-06-28T02:56:12Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - A Distributed Deep Reinforcement Learning Technique for Application
Placement in Edge and Fog Computing Environments [31.326505188936746]
フォグ/エッジコンピューティング環境において, DRL(Deep Reinforcement Learning)に基づく配置技術が提案されている。
IMPortance weighted Actor-Learner Architectures (IMPALA) に基づくアクタ批判に基づく分散アプリケーション配置手法を提案する。
論文 参考訳(メタデータ) (2021-10-24T11:25:03Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。