論文の概要: CubeDAgger: Improved Robustness of Interactive Imitation Learning without Violation of Dynamic Stability
- arxiv url: http://arxiv.org/abs/2505.04897v1
- Date: Thu, 08 May 2025 02:18:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.722122
- Title: CubeDAgger: Improved Robustness of Interactive Imitation Learning without Violation of Dynamic Stability
- Title(参考訳): CubeDAgger:動的安定性を損なうことなく対話型模倣学習のロバスト性を改善する
- Authors: Taisuke Kobayashi,
- Abstract要約: インタラクティブな模倣学習は、専門家の段階的な監督によってエージェントの制御ポリシーを堅牢にする。
最近のシステムでは、監督タイミングを限定的に選択することで、専門家の負担を軽減するために、主に専門家とエージェントの切り替えシステムを採用している。
本稿では,動的安定性違反を低減しつつロバスト性を向上させる,いわゆるCubeDAggerを提案する。
- 参考スコア(独自算出の注目度): 6.20048328543366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive imitation learning makes an agent's control policy robust by stepwise supervisions from an expert. The recent algorithms mostly employ expert-agent switching systems to reduce the expert's burden by limitedly selecting the supervision timing. However, the precise selection is difficult and such a switching causes abrupt changes in actions, damaging the dynamic stability. This paper therefore proposes a novel method, so-called CubeDAgger, which improves robustness while reducing dynamic stability violations by making three improvements to a baseline method, EnsembleDAgger. The first improvement adds a regularization to explicitly activate the threshold for deciding the supervision timing. The second transforms the expert-agent switching system to an optimal consensus system of multiple action candidates. Third, autoregressive colored noise to the actions is introduced to make the stochastic exploration consistent over time. These improvements are verified by simulations, showing that the learned policies are sufficiently robust while maintaining dynamic stability during interaction.
- Abstract(参考訳): インタラクティブな模倣学習は、専門家の段階的な監督によってエージェントの制御ポリシーを堅牢にする。
近年のアルゴリズムでは, 監督タイミングを限定的に選択することで, 専門家の負担を軽減するために, 主にエキスパートエージェント切替システムを採用している。
しかし、正確な選択は困難であり、このような切り替えは行動の急激な変化を引き起こし、動的安定性を損なう。
そこで本研究では,3つの基本手法であるEnsembleDAggerを改良することにより,動的安定性違反を低減し,ロバスト性を向上する,いわゆるCubeDAggerを提案する。
最初の改善では、監督タイミングを決定するしきい値を明示的に活性化する正規化が追加されている。
第2は、エキスパートエージェント切替システムから、複数のアクション候補の最適コンセンサスシステムに変換する。
第3に、時間とともに確率的探索を一貫性を持たせるために、行動に対する自己回帰色ノイズを導入する。
これらの改善はシミュレーションによって検証され、学習されたポリシーは相互作用中の動的安定性を維持しながら十分に堅牢であることを示す。
関連論文リスト
- Actively Learning Reinforcement Learning: A Stochastic Optimal Control Approach [3.453622106101339]
本研究では,2つの相互に結びついた目的を達成するための枠組みを提案する。 (i) 積極的な探索と意図的な情報収集を伴う強化学習と, (ii) 最適制御法の計算的難易度を克服する枠組みである。
我々は、強化学習を用いて最適制御則を計算することにより、両方の目的にアプローチする。
一定の探索と搾取バランスとは異なり、学習プロセスが終了しても、警告と探索はリアルタイムでコントローラによって自動的に行われる。
論文 参考訳(メタデータ) (2023-09-18T18:05:35Z) - A Policy Iteration Approach for Flock Motion Control [5.419608513284392]
全体的な制御プロセスは、群れの粘着性と局在性を監視しながらエージェントを誘導する。
ここでは、独立したコマンドジェネレータに従うためにエージェント群を誘導するために、オンラインモデルフリーのポリシーイテレーションメカニズムが開発されている。
政策反復機構のシミュレーション結果から,計算労力の少ない高速学習と収束挙動が明らかになった。
論文 参考訳(メタデータ) (2023-03-17T15:04:57Z) - Active Uncertainty Reduction for Safe and Efficient Interaction
Planning: A Shielding-Aware Dual Control Approach [9.07774184840379]
本稿では,暗黙的二重制御パラダイムに基づく対話型動作計画における能動的不確実性低減を実現するアルゴリズムを提案する。
提案手法は, 動的プログラミングのサンプリングに基づく近似に依拠し, リアルタイム勾配最適化法で容易に解けるモデル予測制御問題に導かれる。
論文 参考訳(メタデータ) (2023-02-01T01:34:48Z) - Implications of Regret on Stability of Linear Dynamical Systems [5.6435410094272696]
オンライン学習では、エージェントの判断の質は後悔の概念によって定量化されることが多い。
本研究では, 線形状態フィードバックポリシや線形システムに対して, 線形後悔は時間的変化と時間的不変性の両方において安定性を示すことを示す。
論文 参考訳(メタデータ) (2022-11-14T14:39:22Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Reinforcement Learning with Fast Stabilization in Linear Dynamical
Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。
本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。
提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文 参考訳(メタデータ) (2020-07-23T23:06:40Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。