論文の概要: Runtime Verification of Learning Properties for Reinforcement Learning
Algorithms
- arxiv url: http://arxiv.org/abs/2311.09811v1
- Date: Thu, 16 Nov 2023 11:34:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 14:28:50.869777
- Title: Runtime Verification of Learning Properties for Reinforcement Learning
Algorithms
- Title(参考訳): 強化学習アルゴリズムのための学習特性のランタイム検証
- Authors: Tommaso Mannucci (TNO -- Netherlands Organisation for Applied
Scientific Research), Julio de Oliveira Filho (TNO -- Netherlands
Organisation for Applied Scientific Research)
- Abstract要約: 強化学習(RL)アルゴリズムは、試行錯誤方式で環境と相互作用する。
この研究は、学習フェーズが満たされていないか、定性的でタイムリーな期待を満たさないかを予測するために、新しい実行時検証技術を開発する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) algorithms interact with their environment in a
trial-and-error fashion. Such interactions can be expensive, inefficient, and
timely when learning on a physical system rather than in a simulation. This
work develops new runtime verification techniques to predict when the learning
phase has not met or will not meet qualitative and timely expectations. This
paper presents three verification properties concerning the quality and
timeliness of learning in RL algorithms. With each property, we propose design
steps for monitoring and assessing the properties during the system's
operation.
- Abstract(参考訳): 強化学習(RL)アルゴリズムは、試行錯誤方式で環境と相互作用する。
このような相互作用は、シミュレーションではなく物理システムで学ぶ場合、高価で非効率で、タイムリーである。
学習フェーズが満たしていないか、あるいは質的でタイムリーな期待を満たさないかを予測するための、新しいランタイム検証手法を開発した。
本稿では,RLアルゴリズムにおける学習の質とタイムラインに関する3つの検証特性について述べる。
各特性を用いて,システムの動作中の特性の監視と評価を行う設計手順を提案する。
関連論文リスト
- A Comparison of Imitation Learning Algorithms for Bimanual Manipulation [22.531439806919547]
本研究では,顕著な模倣学習アプローチの限界とメリットを実証する。
我々は,過剰制約付き力学系を含む複雑な双方向操作タスクにおいて,それぞれのアルゴリズムを評価する。
模倣学習は複雑なタスクを解くのに適しているが、全てのアルゴリズムが摂動、トレーニング要件、パフォーマンス、使いやすさに等しいわけではない。
論文 参考訳(メタデータ) (2024-08-13T00:04:17Z) - Nature-Inspired Local Propagation [68.63385571967267]
自然学習プロセスは、データの表現と学習が局所性を尊重するような方法で交わされるメカニズムに依存している。
ハミルトン方程式の構造を導出した「学習の法則」のアルゴリズム的解釈は、伝播の速度が無限大になるときにバックプロパゲーションに還元されることを示す。
これにより、バックプロパゲーションと提案されたローカルアルゴリズムの置き換えに基づく完全なオンライン情報に基づく機械学習への扉が開く。
論文 参考訳(メタデータ) (2024-02-04T21:43:37Z) - A study on a Q-Learning algorithm application to a manufacturing
assembly problem [0.8937905773981699]
本研究では,対象物の集合問題に対する強化学習アルゴリズムの実装に焦点を当てた。
環境との連続的な相互作用からQ値の行列(Q-table)を学習することを考慮して,モデルフリーQ-Learningアルゴリズムを適用した。
最適化アプローチは、98.3%の時間で最適なアセンブリシーケンスを学習することで、非常に有望な結果を得た。
論文 参考訳(メタデータ) (2023-04-17T15:38:34Z) - Latent Properties of Lifelong Learning Systems [59.50307752165016]
本稿では,生涯学習アルゴリズムの潜伏特性を推定するために,アルゴリズムに依存しないサロゲート・モデリング手法を提案する。
合成データを用いた実験により,これらの特性を推定するためのアプローチを検証する。
論文 参考訳(メタデータ) (2022-07-28T20:58:13Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Geometric Deep Reinforcement Learning for Dynamic DAG Scheduling [8.14784681248878]
本稿では,現実的なスケジューリング問題を解決するための強化学習手法を提案する。
高性能コンピューティングコミュニティにおいて一般的に実行されるアルゴリズムであるColesky Factorizationに適用する。
我々のアルゴリズムは,アクター・クリティカル・アルゴリズム (A2C) と組み合わせてグラフニューラルネットワークを用いて,問題の適応表現をオンザフライで構築する。
論文 参考訳(メタデータ) (2020-11-09T10:57:21Z) - A Novel Anomaly Detection Algorithm for Hybrid Production Systems based
on Deep Learning and Timed Automata [73.38551379469533]
DAD:DeepAnomalyDetectionは,ハイブリッド生産システムにおける自動モデル学習と異常検出のための新しいアプローチである。
深層学習とタイムドオートマトンを組み合わせて、観察から行動モデルを作成する。
このアルゴリズムは実システムからの2つのデータを含む少数のデータセットに適用され、有望な結果を示している。
論文 参考訳(メタデータ) (2020-10-29T08:27:43Z) - Anticipating the Long-Term Effect of Online Learning in Control [75.6527644813815]
AntLerは、学習を予想する学習ベースの制御法則の設計アルゴリズムである。
AntLer は確率 1 と任意に最適な解を近似することを示す。
論文 参考訳(メタデータ) (2020-07-24T07:00:14Z) - Active Learning for Gaussian Process Considering Uncertainties with
Application to Shape Control of Composite Fuselage [7.358477502214471]
ガウス過程に不確実性のある2つの新しい能動学習アルゴリズムを提案する。
提案手法は不確実性の影響を取り入れ,予測性能の向上を実現する。
本手法は, 複合胴体の自動形状制御における予測モデルの改善に応用されている。
論文 参考訳(メタデータ) (2020-04-23T02:04:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。