論文の概要: Density-Ratio Weighted Behavioral Cloning: Learning Control Policies from Corrupted Datasets
- arxiv url: http://arxiv.org/abs/2510.01479v1
- Date: Wed, 01 Oct 2025 21:43:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.886775
- Title: Density-Ratio Weighted Behavioral Cloning: Learning Control Policies from Corrupted Datasets
- Title(参考訳): 密度比重重み付き行動クローン:破損したデータセットから学習制御法
- Authors: Shriram Karpoora Sundara Pandian, Ali Baheri,
- Abstract要約: 本稿では,密度比重み付き行動クローンについて紹介する(重み付きBC)。
重み付きBC(Weighted BC)は、2値判別器を介して軌跡レベルの密度比を推定するために、小さな検証済みの基準セットを使用する頑健な模倣学習手法である。
実験により、Weighted BCは汚染率が高い場合でもほぼ最適性能を維持していることが示された。
- 参考スコア(独自算出の注目度): 2.922743999325622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) enables policy optimization from fixed datasets, making it suitable for safety-critical applications where online exploration is infeasible. However, these datasets are often contaminated by adversarial poisoning, system errors, or low-quality samples, leading to degraded policy performance in standard behavioral cloning (BC) and offline RL methods. This paper introduces Density-Ratio Weighted Behavioral Cloning (Weighted BC), a robust imitation learning approach that uses a small, verified clean reference set to estimate trajectory-level density ratios via a binary discriminator. These ratios are clipped and used as weights in the BC objective to prioritize clean expert behavior while down-weighting or discarding corrupted data, without requiring knowledge of the contamination mechanism. We establish theoretical guarantees showing convergence to the clean expert policy with finite-sample bounds that are independent of the contamination rate. A comprehensive evaluation framework is established, which incorporates various poisoning protocols (reward, state, transition, and action) on continuous control benchmarks. Experiments demonstrate that Weighted BC maintains near-optimal performance even at high contamination ratios outperforming baselines such as traditional BC, batch-constrained Q-learning (BCQ) and behavior regularized actor-critic (BRAC).
- Abstract(参考訳): オフライン強化学習(RL)は、固定データセットからのポリシー最適化を可能にし、オンライン探索が不可能な安全クリティカルなアプリケーションに適している。
しかしながら、これらのデータセットは、しばしば敵毒、システムエラー、または低品質のサンプルによって汚染され、標準行動クローニング(BC)およびオフラインRL法における政策性能が低下する。
本稿では,2値判別器を介して軌道レベルの密度比を推定するために,小型で検証済みのクリーン参照セットを用いた頑健な模倣学習手法である密度比重み付き行動クローン(Weighted BC)を提案する。
これらの比率は、汚染メカニズムの知識を必要とせず、破損したデータを下げたり破棄したりしながら、クリーンな専門家の振る舞いを優先するために、BCの目的としてクリップされ、重みとして使用される。
汚染率に依存しない有限サンプル境界を持つクリーンエキスパート政策への収束を示す理論的保証を確立する。
包括的な評価フレームワークが確立され、継続的制御ベンチマークに様々な中毒プロトコル(逆、状態、遷移、行動)が組み込まれている。
実験により、Weighted BCは、従来のBCQ、バッチ制約Qラーニング(BCQ)、行動正規化アクタークリティカル(BRAC)などのベースラインよりも高い汚染率でも、ほぼ最適性能を維持していることが示された。
関連論文リスト
- COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Robust Conformal Outlier Detection under Contaminated Reference Data [20.864605211132663]
コンフォーマル予測は、機械学習予測を校正するための柔軟なフレームワークである。
異常値検出では、この校正はタイプIエラー率を制御するためにラベル付き不整値データの参照セットに依存する。
本稿では, 汚染がコンフォメーション法の有効性に与える影響を解析する。
論文 参考訳(メタデータ) (2025-02-07T10:23:25Z) - How Contaminated Is Your Benchmark? Quantifying Dataset Leakage in Large Language Models with Kernel Divergence [23.019102917957152]
Kernel Divergence Score (KDS) は、サンプル埋め込みのカーネル類似性行列間のばらつきを計算することによって、データセット汚染を評価する新しい手法である。
KDSは汚染レベルとほぼ完璧な相関を示し、既存のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-02-02T05:50:39Z) - Strategically Conservative Q-Learning [89.17906766703763]
オフライン強化学習(RL)は、RLの実用性を拡張するための魅力的なパラダイムである。
オフラインRLの最大の難しさは、オフ・オブ・ディストリビューション(OOD)アクションに遭遇する際の近似誤差の影響を緩和することである。
本稿では, 予測が容易かつ困難であるOODデータを識別する, SCQ(Strategical conservative Q-Learning) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T22:09:46Z) - Benign Overfitting in Linear Classifiers and Leaky ReLU Networks from
KKT Conditions for Margin Maximization [59.038366742773164]
ロジスティック損失の勾配流によって訓練された線形および漏洩ReLUは、KKT条件を満たすための暗黙の偏りを持つ。
本研究では、線形分類器や2層リークReLUネットワークにおいて、これらの条件の満足度が良性オーバーフィットを意味するような設定を多数確立する。
論文 参考訳(メタデータ) (2023-03-02T18:24:26Z) - Robust Offline Reinforcement Learning with Gradient Penalty and
Constraint Relaxation [38.95482624075353]
爆発するQ-関数に対処するために,学習値関数に対する勾配ペナルティを導入する。
次に、批判重み付き制約緩和による非最適行動に対する近接性制約を緩和する。
実験結果から,提案手法は方針制約付きオフラインRL法において,最適でない軌道を効果的に制御できることが示唆された。
論文 参考訳(メタデータ) (2022-10-19T11:22:36Z) - Hierarchical Semi-Supervised Contrastive Learning for
Contamination-Resistant Anomaly Detection [81.07346419422605]
異常検出は、通常のデータ分布から逸脱したサンプルを特定することを目的としている。
コントラスト学習は、異常の効果的な識別を可能にする表現のサンプル化に成功している。
汚染耐性異常検出のための新しい階層型半教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-24T18:49:26Z) - Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement
Learning [125.8224674893018]
オフライン強化学習(RL)は、環境を探索することなく、以前に収集したデータセットからポリシーを学ぶことを目的としている。
オフポリシーアルゴリズムをオフラインRLに適用することは、通常、オフ・オブ・ディストリビューション(OOD)アクションによって引き起こされる外挿エラーによって失敗する。
本稿では,PBRL(Pepsimistic Bootstrapping for offline RL)を提案する。
論文 参考訳(メタデータ) (2022-02-23T15:27:16Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。