論文の概要: Learning-Aided Heuristics Design for Storage System
- arxiv url: http://arxiv.org/abs/2106.07288v1
- Date: Mon, 14 Jun 2021 10:35:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 16:08:07.377615
- Title: Learning-Aided Heuristics Design for Storage System
- Title(参考訳): 記憶システムの学習支援ヒューリスティックス設計
- Authors: Yingtian Tang, Han Lu, Xijun Li, Lei Chen, Mingxuan Yuan and Jia Zeng
- Abstract要約: 本稿では,Deep Reinforcement Learning エージェントから人読可能な戦略を自動的に生成する学習支援設計手法を提案する。
この方法は深層学習の力の恩恵を受けるが、ブラックボックス特性の欠点を避けることができる。
- 参考スコア(独自算出の注目度): 17.34061593028386
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Computer systems such as storage systems normally require transparent
white-box algorithms that are interpretable for human experts. In this work, we
propose a learning-aided heuristic design method, which automatically generates
human-readable strategies from Deep Reinforcement Learning (DRL) agents. This
method benefits from the power of deep learning but avoids the shortcoming of
its black-box property. Besides the white-box advantage, experiments in our
storage productions resource allocation scenario also show that this solution
outperforms the systems default settings and the elaborately handcrafted
strategy by human experts.
- Abstract(参考訳): ストレージシステムのようなコンピュータシステムは通常、人間の専門家が解釈可能な透明なホワイトボックスアルゴリズムを必要とする。
本研究では,深層強化学習 (drl) エージェントから人間が読める戦略を自動的に生成する学習支援ヒューリスティック設計手法を提案する。
この方法は深層学習の力の恩恵を受けるが、ブラックボックス特性の欠点を避ける。
ホワイトボックスのアドバンテージに加えて、storage productionsのリソース割り当てシナリオの実験では、このソリューションがシステムのデフォルト設定や、人間の専門家による精巧な手作り戦略よりも優れています。
関連論文リスト
- Employing Layerwised Unsupervised Learning to Lessen Data and Loss Requirements in Forward-Forward Algorithms [1.0514231683620516]
Forward-Forwardアルゴリズムは、フォワードパスのみを通してディープラーニングモデルを訓練する。
バックプロパゲーションを置き換えるために,教師なしフォワードアルゴリズムを提案する。
安定した学習を導き、さまざまなデータセットやタスクで汎用的な利用を可能にします。
論文 参考訳(メタデータ) (2024-04-23T01:49:12Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - Constrained Reinforcement Learning for Robotics via Scenario-Based
Programming [64.07167316957533]
DRLをベースとしたエージェントの性能を最適化し,その動作を保証することが重要である。
本稿では,ドメイン知識を制約付きDRLトレーニングループに組み込む新しい手法を提案する。
我々の実験は、専門家の知識を活用するために我々のアプローチを用いることで、エージェントの安全性と性能が劇的に向上することを示した。
論文 参考訳(メタデータ) (2022-06-20T07:19:38Z) - Scenario-Assisted Deep Reinforcement Learning [3.5036351567024275]
本稿では,強化学習訓練プロセスの強化手法を提案する。
これにより、人間のエンジニアは、専門家の知識を直接貢献することができ、訓練中のエージェントが関連する制約に従う可能性が高まる。
本手法は,インターネット混雑制御領域のケーススタディを用いて評価する。
論文 参考訳(メタデータ) (2022-02-09T08:46:13Z) - On the Unreasonable Efficiency of State Space Clustering in
Personalization Tasks [1.495380389108477]
複雑な報酬信号を用いてパーソナライズタスクを解くための強化学習(RL)手法を検討する。
我々のアプローチは、単純な$k$-meansアルゴリズムを用いて状態空間クラスタリングに基づいている。
論文 参考訳(メタデータ) (2021-12-24T21:12:40Z) - StratLearner: Learning a Strategy for Misinformation Prevention in
Social Networks [6.457205049532316]
我々は、基礎となる拡散モデルを知ることなく、将来の攻撃者に対するプロテクターの計算戦略を学ぶ。
本手法は拡散モデルの情報を使わずに準最適プロテクターを生成できる。
論文 参考訳(メタデータ) (2020-09-29T22:58:33Z) - Provable Representation Learning for Imitation Learning via Bi-level
Optimization [60.059520774789654]
現代の学習システムにおける一般的な戦略は、多くのタスクに有用な表現を学ぶことである。
我々は,複数の専門家の軌道が利用できるマルコフ決定過程(MDP)の模倣学習環境において,この戦略を研究する。
このフレームワークは,行動のクローン化と観察-アローンの模倣学習設定のためにインスタンス化する。
論文 参考訳(メタデータ) (2020-02-24T21:03:52Z) - Enhanced Adversarial Strategically-Timed Attacks against Deep
Reinforcement Learning [91.13113161754022]
本稿では,DRLに基づくナビゲーションシステムに対して,選択した時間フレーム上の物理ノイズパターンを妨害することにより,タイミングに基づく逆方向戦略を導入する。
実験結果から, 対向タイミング攻撃は性能低下を引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2020-02-20T21:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。