論文の概要: Imbalanced Classification In Faulty Turbine Data: New Proximal Policy
Optimization
- arxiv url: http://arxiv.org/abs/2301.04049v1
- Date: Tue, 10 Jan 2023 16:03:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 17:56:57.518680
- Title: Imbalanced Classification In Faulty Turbine Data: New Proximal Policy
Optimization
- Title(参考訳): 故障タービンデータにおける不均衡分類 : 新しい近似最適化
- Authors: Mohammad Hossein Modirrousta, Mahdi Aliyari Shoorehdeli, Mostafa Yari
and Arash Ghahremani
- Abstract要約: 本稿では,強化学習に基づく欠陥検出のためのフレームワークと,近似ポリシ最適化と呼ばれるポリシーを提案する。
修正されたプロキシポリシー最適化を使用することで、パフォーマンスを高め、データの不均衡を克服し、将来の障害を予測することができます。
- 参考スコア(独自算出の注目度): 0.5735035463793008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is growing importance to detecting faults and implementing the best
methods in industrial and real-world systems. We are searching for the most
trustworthy and practical data-based fault detection methods proposed by
artificial intelligence applications. In this paper, we propose a framework for
fault detection based on reinforcement learning and a policy known as proximal
policy optimization. As a result of the lack of fault data, one of the
significant problems with the traditional policy is its weakness in detecting
fault classes, which was addressed by changing the cost function. Using
modified Proximal Policy Optimization, we can increase performance, overcome
data imbalance, and better predict future faults. When our modified policy is
implemented, all evaluation metrics will increase by $3\%$ to $4\%$ as compared
to the traditional policy in the first benchmark, between $20\%$ and $55\%$ in
the second benchmark, and between $6\%$ and $14\%$ in the third benchmark, as
well as an improvement in performance and prediction speed compared to previous
methods.
- Abstract(参考訳): 障害の検出や,産業システムや現実システムにおける最善の方法の実装は,ますます重要になっています。
我々は,人工知能応用によって提案された,最も信頼性が高く実用的なデータに基づく故障検出手法を探っている。
本稿では,強化学習に基づく障害検出の枠組みと,近位政策最適化として知られる方針を提案する。
フォールトデータ不足の結果として、従来の政策における重大な問題のひとつは、コスト関数の変更によって対処されたフォールトクラスの検出の弱点である。
修正された近位ポリシー最適化を使用することで、パフォーマンスの向上、データ不均衡の克服、将来的な障害の予測が向上します。
修正されたポリシーが実装されると、最初のベンチマークの従来のポリシーと比較して、すべての評価指標が$3\%$から$4\%$に、第2ベンチマークの$20\%$から$5\%$に、第3ベンチマークの$6\%$から$14\%に、そして以前の方法と比較してパフォーマンスと予測速度が向上する。
関連論文リスト
- Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Off-Policy Primal-Dual Safe Reinforcement Learning [16.918188277722503]
本研究では, 累積コスト推定における誤差が, 法外手法を用いた場合のコストの大幅な過小評価を引き起こすことを示す。
本稿では,予測の不確実性を考慮し,制約充足領域の政策を学習する保守的な政策最適化を提案する。
次に,評価の不確実性を徐々に減少させることにより,そのような過小評価の解消を支援するために,局所的な政策凸化を導入する。
論文 参考訳(メタデータ) (2024-01-26T10:33:38Z) - Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Value Enhancement of Reinforcement Learning via Efficient and Robust
Trust Region Optimization [14.028916306297928]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが最適なポリシーを学習できるようにする強力な機械学習技術である。
本稿では,既存の最先端RLアルゴリズムによって計算された初期ポリシーの性能を向上させるために,新しい値拡張手法を提案する。
論文 参考訳(メタデータ) (2023-01-05T18:43:40Z) - DQLAP: Deep Q-Learning Recommender Algorithm with Update Policy for a
Real Steam Turbine System [0.0]
機械学習とディープラーニングは、データに基づく故障診断のための様々な手法を提案している。
本稿では,断層検出のための深層学習と強化学習に基づくフレームワークを開発することを目的とする。
論文 参考訳(メタデータ) (2022-10-12T16:58:40Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z) - Greedy Policy Search: A Simple Baseline for Learnable Test-Time
Augmentation [65.92151529708036]
我々は,テスト時間拡張のポリシーを学習するための簡易かつ高性能な方法として,greedy Policy Search (GPS)を導入した。
画像分類問題においてGPSで学習した拡張ポリシーが優れた予測性能を実現することを実証する。
論文 参考訳(メタデータ) (2020-02-21T02:57:13Z) - Efficient Policy Learning from Surrogate-Loss Classification Reductions [65.91730154730905]
本稿では,政策学習におけるサロゲート-ロス分類の重み付けによる推定問題について考察する。
適切な仕様の仮定の下では、重み付けされた分類定式化はポリシーパラメーターに対して効率的でないことが示される。
本稿では,ポリシーパラメータに対して効率的なモーメントの一般化手法に基づく推定手法を提案する。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。