論文の概要: Reinforcement Learning for Optimal Experiment Design in Parameter Identification of Mechatronic Systems
- arxiv url: http://arxiv.org/abs/2606.00059v1
- Date: Tue, 19 May 2026 11:39:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-07 20:42:22.530787
- Title: Reinforcement Learning for Optimal Experiment Design in Parameter Identification of Mechatronic Systems
- Title(参考訳): メカトロニクス系のパラメータ同定における最適実験設計のための強化学習
- Authors: Julian Langschwert, Georg Schaefer, Jakob Rehrl, Stefan Huber, Simon Hirlaender,
- Abstract要約: 本稿では,Quanser Aero 2テストベッドの最適励起信号を学習する強化学習(RL)エージェントを提案する。
包括的エージェントは,古典的基準線を上回り,0.75%の安全違反しか生じない3つのパラメータの競合推定精度を実現する。
- 参考スコア(独自算出の注目度): 0.3805935148497361
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Informative excitation signals are critical for accurate system identification of mechatronic systems, yet classical system identification (SI) approaches require expert knowledge and hand-crafted signal design to respect hardware safety constraints, limiting their generalizability. We propose a reinforcement learning (RL) agent that learns optimal excitation signals for a Quanser Aero 2 testbed while autonomously enforcing safety constraints through reward shaping. Evaluated across 10 independent training seeds, our comprehensive agent achieves competitive estimation accuracy across all three identified parameters, outperforming classical baselines while incurring only 0.75% safety violations.
- Abstract(参考訳): インフォーマティブな励起信号はメカトロニクス系の正確なシステム同定には重要であるが、古典的なシステム同定(SI)アプローチでは、ハードウェアの安全性の制約を尊重するために、専門家の知識と手作りの信号設計が必要である。
本稿では,報酬形成による安全制約を自律的に実施しながら,クアンサーエアロ2テストベッドの最適励起信号を学習する強化学習(RL)エージェントを提案する。
10個の独立した訓練種子で評価し,従来の基準値よりも高い精度を達成し,安全性違反は0.75%に留まった。
関連論文リスト
- Provable Robustness against Backdoor Attacks via the Primal-Dual Perspective on Differential Privacy [51.758416625168]
ランダムな平滑化は、敵の摂動に対する堅牢性を証明するための強力なツールである。
本稿では,複雑な構成機構の認証のためのフレームワークを提案する。
複雑な脅威モデル下での堅牢性を証明するために複合メカニズムを使用するための原則的で一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2026-05-20T22:17:29Z) - Intelligent Singularity Avoidance in UR10 Robotic Arm Path Planning Using Hybrid Fuzzy Logic and Reinforcement Learning [0.0]
提案システムは、特異点が制御の喪失と潜在的な機器損傷を引き起こすロボット操作において重要な課題に対処する。
我々のハイブリッドアプローチは,操作性測定,条件数解析,ファジィ論理決定を用いたリアルタイム特異点検出と適応経路計画のための安定的な強化学習フレームワークを組み合わせる。
論文 参考訳(メタデータ) (2026-01-09T15:10:23Z) - Safely Learning Controlled Stochastic Dynamics [61.82896036131116]
システム力学の安全な探索と効率的な推定を可能にする手法を提案する。
学習後、学習モデルはシステムのダイナミクスの予測を可能にし、任意の制御の安全性検証を可能にする。
我々は、真の力学のソボレフ正則性を高めることにより、安全性と適応学習率の向上を理論的に保証する。
論文 参考訳(メタデータ) (2025-06-03T11:17:07Z) - OpenAI o1 System Card [274.83891368890977]
o1モデルシリーズは、思考の連鎖を用いて推論するために大規模な強化学習で訓練されている。
本報告では,OpenAI o1およびOpenAI o1-miniモデルに対して実施される安全作業の概要について述べる。
論文 参考訳(メタデータ) (2024-12-21T18:04:31Z) - Incorporating System-level Safety Requirements in Perception Models via Reinforcement Learning [7.833541053347799]
本稿では,システムレベルの安全目標を理解することにより,知覚要素を増強する訓練パラダイムを提案する。
このアプローチで訓練されたモデルは,システムレベルの安全性の観点から,ベースライン知覚モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-04T01:40:54Z) - FaultGuard: A Generative Approach to Resilient Fault Prediction in Smart Electrical Grids [53.2306792009435]
FaultGuardは、障害タイプとゾーン分類のための最初のフレームワークであり、敵攻撃に耐性がある。
本稿では,ロバスト性を高めるために,低複雑性故障予測モデルとオンライン逆行訓練手法を提案する。
本モデルでは,耐故障予測ベンチマークの最先端を最大0.958の精度で上回っている。
論文 参考訳(メタデータ) (2024-03-26T08:51:23Z) - Safe Reinforcement Learning Using Black-Box Reachability Analysis [20.875010584486812]
強化学習(Reinforcement Learning, RL)は、不確実な環境下でのロボットの動き計画と制御を高度に行うことができる。
広範な展開を正当化するためには、ロボットは性能を犠牲にすることなく安全上の制約を尊重しなければならない。
我々は3つの主要コンポーネントを持つブラックボックス到達可能性に基づく安全層(BRSL)を提案する。
論文 参考訳(メタデータ) (2022-04-15T10:51:09Z) - FRL-FI: Transient Fault Analysis for Federated Reinforcement
Learning-Based Navigation Systems [4.9002824669038265]
Swarmインテリジェンスは、ドローンや無人車両などの自律システムにますますデプロイされている。
連続技術ノードスケーリングによるハードウェアシステムでは,過渡的障害が増加しています。
本稿では,FRLシステムにおいて最大3.3倍のレジリエンス向上と2.7%のオーバヘッドを達成できる2つのコスト効率な故障検出・復旧手法を提案する。
論文 参考訳(メタデータ) (2022-03-14T16:51:41Z) - Safe RAN control: A Symbolic Reinforcement Learning Approach [62.997667081978825]
本稿では,無線アクセスネットワーク(RAN)アプリケーションの安全管理のためのシンボル強化学習(SRL)アーキテクチャを提案する。
我々は、ユーザが所定のセルネットワークトポロジに対して高レベルの論理的安全性仕様を指定できる純粋に自動化された手順を提供する。
ユーザがシステムに意図仕様を設定するのを支援するために開発されたユーザインターフェース(UI)を導入し、提案するエージェントの動作の違いを検査する。
論文 参考訳(メタデータ) (2021-06-03T16:45:40Z) - Adversarial Training is Not Ready for Robot Learning [55.493354071227174]
対人訓練は,ノルム有界摂動に耐性のあるディープラーニングモデルを訓練する有効な方法である。
敵訓練により得られたニューラルコントローラが3種類の欠陥を受けることを理論的および実験的に示す。
この結果から, ロボット学習にはまだ対応できていないことが示唆された。
論文 参考訳(メタデータ) (2021-03-15T07:51:31Z) - Falsification-Based Robust Adversarial Reinforcement Learning [13.467693018395863]
Falsification-based RARL (FRARL) は、対人学習における時間論理のファルシフィケーションを統合するための最初の汎用フレームワークである。
実験結果から, ファルシフィケーションをベースとした対向法で訓練したポリシーは, より一般化され, テストシナリオにおける安全仕様の違反が少なくなることが示された。
論文 参考訳(メタデータ) (2020-07-01T18:32:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。