論文の概要: Fragile, Robust, and Antifragile: A Perspective from Parameter Responses in Reinforcement Learning Under Stress
- arxiv url: http://arxiv.org/abs/2506.23036v1
- Date: Sat, 28 Jun 2025 23:28:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.679675
- Title: Fragile, Robust, and Antifragile: A Perspective from Parameter Responses in Reinforcement Learning Under Stress
- Title(参考訳): フラジル・ロバスト・アンチフラジル:ストレス下での強化学習におけるパラメータ応答からの展望
- Authors: Zain ul Abdeen, Ming Jin,
- Abstract要約: 本稿では、内部および外部ストレス下でのネットワークパラメータを体系的に解析することにより、強化学習(RL)ポリシーの堅牢性について検討する。
神経科学においてシナプスの可塑性に触発され、シナプスのフィルタリングはパラメータを選択的に摂動することで内部のストレスをもたらす。
その結果、ストレス下での政策性能を高める反フレジブルパラメータの存在が強調され、RL政策適応性を向上させるためのターゲットフィルタリング技術の可能性が示された。
- 参考スコア(独自算出の注目度): 3.2549136612840193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores Reinforcement learning (RL) policy robustness by systematically analyzing network parameters under internal and external stresses. Inspired by synaptic plasticity in neuroscience, synaptic filtering introduces internal stress by selectively perturbing parameters, while adversarial attacks apply external stress through modified agent observations. This dual approach enables the classification of parameters as fragile, robust, or antifragile, based on their influence on policy performance in clean and adversarial settings. Parameter scores are defined to quantify these characteristics, and the framework is validated on PPO-trained agents in Mujoco continuous control environments. The results highlight the presence of antifragile parameters that enhance policy performance under stress, demonstrating the potential of targeted filtering techniques to improve RL policy adaptability. These insights provide a foundation for future advancements in the design of robust and antifragile RL systems.
- Abstract(参考訳): 本稿では、内部および外部ストレス下でのネットワークパラメータを体系的に解析することにより、強化学習(RL)ポリシーの堅牢性について検討する。
神経科学においてシナプスの可塑性に触発され、シナプスのフィルタリングはパラメータを選択的に摂動することで内部のストレスをもたらす。
この2つのアプローチは、きれいで敵対的な設定における政策パフォーマンスへの影響に基づいて、パラメータを脆弱、堅牢、あるいはアンチフランジとして分類することを可能にする。
パラメータスコアはこれらの特性を定量化するために定義され、このフレームワークはMujoco連続制御環境におけるPPO訓練エージェント上で検証される。
その結果、ストレス下での政策性能を高める反フレジブルパラメータの存在が強調され、RL政策適応性を向上させるためのターゲットフィルタリング技術の可能性が示された。
これらの知見は、ロバストかつアンチフレジブルなRLシステムの設計における将来の進歩の基盤となる。
関連論文リスト
- Curriculum-Guided Antifragile Reinforcement Learning for Secure UAV Deconfliction under Observation-Space Attacks [6.367978467906828]
強化学習政策は、観測空間における敵の攻撃に対して脆弱である。
本稿では,段階的対向摂動のカリキュラムに適応するために設計された反フレジブルなRLフレームワークを提案する。
その結果, 反フランジ政策は標準およびロバストなRLベースラインよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-06-26T10:10:41Z) - Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。
制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文 参考訳(メタデータ) (2025-06-06T10:29:05Z) - Sensitivity Meets Sparsity: The Impact of Extremely Sparse Parameter Patterns on Theory-of-Mind of Large Language Models [55.46269953415811]
ToM感受性パラメータを同定し、これらのパラメータの0.001%の摂動がToM性能を著しく低下させることを示す。
我々の結果は、モデルアライメントの強化、バイアス軽減、ヒューマンインタラクション用に設計されたAIシステムの改善に影響を及ぼす。
論文 参考訳(メタデータ) (2025-04-05T17:45:42Z) - Overcoming Non-stationary Dynamics with Evidential Proximal Policy Optimization [11.642505299142956]
非定常環境の継続的な制御は、深層強化学習アルゴリズムの大きな課題である。
政治上の強化学習を、明白な批評家と実践することは、これらの特性の両方を提供することを示す。
得られたアルゴリズムは、政策評価と政策改善の段階において、明らかな不確実性の不可欠な役割のために、$textit Evidential Proximal Policy Optimization (EPPO)$と命名する。
論文 参考訳(メタデータ) (2025-03-03T12:23:07Z) - Improve Robustness of Reinforcement Learning against Observation
Perturbations via $l_\infty$ Lipschitz Policy Networks [8.39061976254379]
深層強化学習(DRL)は、シーケンシャルな意思決定タスクにおいて顕著な進歩を遂げた。
近年の研究では、DRL剤は観測のわずかな摂動に影響を受けやすいことが判明している。
本稿では、観測摂動に対するDRLポリシーの堅牢性を改善するため、SrtRLと呼ばれる新しい頑健な強化学習法を提案する。
論文 参考訳(メタデータ) (2023-12-14T08:57:22Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Causal Inference Q-Network: Toward Resilient Reinforcement Learning [57.96312207429202]
観測干渉を有する弾力性のあるDRLフレームワークを検討する。
本稿では、因果推論Q-network (CIQ) と呼ばれる因果推論に基づくDRLアルゴリズムを提案する。
実験の結果,提案手法は観測干渉に対して高い性能と高反発性を実現することができた。
論文 参考訳(メタデータ) (2021-02-18T23:50:20Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。