論文の概要: Robust Behavior Cloning Via Global Lipschitz Regularization
- arxiv url: http://arxiv.org/abs/2506.19250v1
- Date: Tue, 24 Jun 2025 02:19:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.442783
- Title: Robust Behavior Cloning Via Global Lipschitz Regularization
- Title(参考訳): グローバルリプシッツ規則化によるロバスト行動のクローン化
- Authors: Shili Wu, Yizhao Jin, Puhua Niu, Aniruddha Datta, Sean B. Andersson,
- Abstract要約: 行動クローニングは効果的な模倣学習技術であり、自動運転車のような安全上重要な領域でも採用されている。
我々は、学習したポリシーネットワークの堅牢性を高めるために、グローバルなリプシッツ正規化アプローチを使用する。
ポリシの堅牢性を保証するために,リプシッツニューラルネットワークを構築する方法を提案する。
- 参考スコア(独自算出の注目度): 0.5767156832161817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Behavior Cloning (BC) is an effective imitation learning technique and has even been adopted in some safety-critical domains such as autonomous vehicles. BC trains a policy to mimic the behavior of an expert by using a dataset composed of only state-action pairs demonstrated by the expert, without any additional interaction with the environment. However, During deployment, the policy observations may contain measurement errors or adversarial disturbances. Since the observations may deviate from the true states, they can mislead the agent into making sub-optimal actions. In this work, we use a global Lipschitz regularization approach to enhance the robustness of the learned policy network. We then show that the resulting global Lipschitz property provides a robustness certificate to the policy with respect to different bounded norm perturbations. Then, we propose a way to construct a Lipschitz neural network that ensures the policy robustness. We empirically validate our theory across various environments in Gymnasium. Keywords: Robust Reinforcement Learning; Behavior Cloning; Lipschitz Neural Network
- Abstract(参考訳): 行動クローニング(BC)は効果的な模倣学習手法であり、自動運転車のような安全上重要な分野にも採用されている。
BCは、専門家の振る舞いを模倣するポリシーを、専門家によって実証された状態-作用ペアのみで構成されたデータセットを使用して訓練する。
しかし、配備中、政策観測には測定誤差や敵の障害が含まれる可能性がある。
観測は真の状態から逸脱する可能性があるため、エージェントを誤解させ、準最適行動を起こすことができる。
本研究では,グローバルなリプシッツ正規化手法を用いて,学習したポリシネットワークの堅牢性を高める。
次に、得られたグローバルリプシッツ特性が、異なる有界ノルム摂動に関してポリシーに堅牢性証明を提供することを示す。
そこで我々は,政策の堅牢性を確保するために,リプシッツニューラルネットワークを構築する方法を提案する。
ギムナジウムの様々な環境における我々の理論を実証的に検証する。
キーワード:ロバスト強化学習、行動クローニング、リプシッツニューラルネットワーク
関連論文リスト
- How Generalizable Is My Behavior Cloning Policy? A Statistical Approach to Trustworthy Performance Evaluation [17.638831964639834]
行動クローニングポリシーは、人間のデモンストレーションから学ぶことで複雑なタスクを解決することに成功している。
本稿では,任意の環境下でのロボット性能について,より低バウンドなフレームワークを提案する。
実験では,シミュレーションとハードウェアの両方におけるビジュモータ操作のポリシーを評価する。
論文 参考訳(メタデータ) (2024-05-08T22:00:35Z) - Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。
政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。
政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:14:06Z) - Offline Imitation Learning with Suboptimal Demonstrations via Relaxed
Distribution Matching [109.5084863685397]
オフライン模倣学習(IL)は、環境と相互作用することなく、事前にコンパイルされたデモからパフォーマンスポリシーを学習する機能を提供する。
非対称な f-分割を明示的なサポート正規化に用いたRelaxDICEを提案する。
提案手法は,6つの標準連続制御環境において,最上位のオフライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-03-05T03:35:11Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Training Certifiably Robust Neural Networks with Efficient Local
Lipschitz Bounds [99.23098204458336]
認証された堅牢性は、安全クリティカルなアプリケーションにおいて、ディープニューラルネットワークにとって望ましい性質である。
提案手法は,MNISTおよびTinyNetデータセットにおける最先端の手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-11-02T06:44:10Z) - On the Benefits of Inducing Local Lipschitzness for Robust Generative
Adversarial Imitation Learning [36.48610705372544]
判別器とジェネレータの局所リプシッツ性がGAILが学習したポリシーの堅牢性に及ぼす影響について検討した。
修正された目的が、より堅牢なポリシーを学習することにつながることを示す。
論文 参考訳(メタデータ) (2021-06-30T21:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。