論文の概要: Uncertainty-based Offline Variational Bayesian Reinforcement Learning for Robustness under Diverse Data Corruptions
- arxiv url: http://arxiv.org/abs/2411.00465v1
- Date: Fri, 01 Nov 2024 09:28:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:42:35.214123
- Title: Uncertainty-based Offline Variational Bayesian Reinforcement Learning for Robustness under Diverse Data Corruptions
- Title(参考訳): 逆データ破壊下でのロバスト性に対する不確実性に基づくオフライン変分ベイズ強化学習
- Authors: Rui Yang, Jie Wang, Guoping Wu, Bin Li,
- Abstract要約: 実世界のオフラインデータセットは、しばしばセンサーの故障や悪意のある攻撃によるデータ破損にさらされる。
既存の手法は、破損したデータによって引き起こされる高い不確実性の下で堅牢なエージェントを学ぶのに苦労している。
オフラインRL(TRACER)に対するロバストな変分ベイズ推定法を提案する。
- 参考スコア(独自算出の注目度): 8.666879925570331
- License:
- Abstract: Real-world offline datasets are often subject to data corruptions (such as noise or adversarial attacks) due to sensor failures or malicious attacks. Despite advances in robust offline reinforcement learning (RL), existing methods struggle to learn robust agents under high uncertainty caused by the diverse corrupted data (i.e., corrupted states, actions, rewards, and dynamics), leading to performance degradation in clean environments. To tackle this problem, we propose a novel robust variational Bayesian inference for offline RL (TRACER). It introduces Bayesian inference for the first time to capture the uncertainty via offline data for robustness against all types of data corruptions. Specifically, TRACER first models all corruptions as the uncertainty in the action-value function. Then, to capture such uncertainty, it uses all offline data as the observations to approximate the posterior distribution of the action-value function under a Bayesian inference framework. An appealing feature of TRACER is that it can distinguish corrupted data from clean data using an entropy-based uncertainty measure, since corrupted data often induces higher uncertainty and entropy. Based on the aforementioned measure, TRACER can regulate the loss associated with corrupted data to reduce its influence, thereby enhancing robustness and performance in clean environments. Experiments demonstrate that TRACER significantly outperforms several state-of-the-art approaches across both individual and simultaneous data corruptions.
- Abstract(参考訳): 実世界のオフラインデータセットは、センサーの障害や悪意のある攻撃のために、しばしばデータ破損(ノイズや敵攻撃など)を受けます。
頑健なオフライン強化学習(RL)の進歩にもかかわらず、既存の手法は、多様な破損したデータ(例えば、破損した状態、行動、報酬、ダイナミクス)によって引き起こされる高い不確実性の下で、堅牢なエージェントを学習するのに苦労し、クリーン環境におけるパフォーマンスの低下につながった。
そこで本研究では,オフラインRL(TRACER)に対するロバストなベイズ推定法を提案する。
あらゆる種類のデータ破損に対する堅牢性のために、オフラインデータを介して不確実性をキャプチャするために、初めてベイジアン推論を導入する。
具体的には、TRACERはまずすべての汚職をアクション値関数の不確実性としてモデル化する。
そして、そのような不確実性を捉えるために、すべてのオフラインデータを観測として使用し、ベイズ推論フレームワークの下でのアクション値関数の後方分布を近似する。
TRACERの特長は、劣化したデータが高い不確実性とエントロピーを引き起こすため、エントロピーに基づく不確実性尺度を用いて、破損したデータとクリーンデータとを区別できることである。
この測定に基づいて、TRACERは、破損したデータに関連する損失を規制し、その影響を低減し、クリーン環境における堅牢性と性能を向上させる。
実験によると、TRACERは個々のデータと同時データの破損の両方において、最先端のアプローチを著しく上回っている。
関連論文リスト
- Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Reshaping the Online Data Buffering and Organizing Mechanism for Continual Test-Time Adaptation [49.53202761595912]
継続的なテスト時間適応は、訓練済みのソースモデルを適用して、教師なしのターゲットドメインを継続的に変更する。
我々は、オンライン環境、教師なしの自然、エラー蓄積や破滅的な忘れのリスクなど、このタスクの課題を分析する。
教師なしシングルパスデータストリームから重要サンプルを高い確実性で識別・集約する不確実性を考慮したバッファリング手法を提案する。
論文 参考訳(メタデータ) (2024-07-12T15:48:40Z) - Robust Decision Transformer: Tackling Data Corruption in Offline RL via Sequence Modeling [34.547551367941246]
センサーや人間から収集された現実世界のデータには、しばしばノイズやエラーが含まれている。
時間差分学習に基づく従来のオフラインRL手法は、データ破損時に決定変換器(DT)を過小評価する傾向にある。
本稿では,ロバスト決定変換器 (RDT) を提案する。
論文 参考訳(メタデータ) (2024-07-05T06:34:32Z) - Accuracy on the wrong line: On the pitfalls of noisy data for out-of-distribution generalisation [70.36344590967519]
ノイズの多いデータやニュアンスの特徴は,その正確さを損なうのに十分であることを示す。
ノイズの多いデータとノイズのある特徴を持つ合成データセットと実データセットの両方で、この現象を実証する。
論文 参考訳(メタデータ) (2024-06-27T09:57:31Z) - Effective and Robust Adversarial Training against Data and Label Corruptions [35.53386268796071]
データ摂動とラベルノイズによる破損は、信頼できない情報源からのデータセットに多い。
我々は,2種類の汚職を同時に扱うための,効果的かつロバストな適応訓練フレームワークを開発した。
論文 参考訳(メタデータ) (2024-05-07T10:53:20Z) - Binary Classification with Confidence Difference [100.08818204756093]
本稿では,信頼性差分法 (ConfDiff) という,弱教師付き二項分類問題について考察する。
本稿では,この問題に対処するためのリスク一貫性のあるアプローチを提案し,推定誤差が最適収束率と一致することを示す。
また,整合性や収束率も証明されたオーバーフィッティング問題を緩和するためのリスク補正手法も導入する。
論文 参考訳(メタデータ) (2023-10-09T11:44:50Z) - Causal Deep Reinforcement Learning Using Observational Data [11.790171301328158]
深部強化学習(DRL)における2つの解答法を提案する。
提案手法はまず, 因果推論法に基づいて異なる試料の重要度を算出し, 損失関数に対する異なる試料の影響を調整する。
本手法の有効性を実証し,実験的に検証する。
論文 参考訳(メタデータ) (2022-11-28T14:34:39Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Classification and Uncertainty Quantification of Corrupted Data using
Semi-Supervised Autoencoders [11.300365160909879]
本稿では,強い破損したデータを分類し,不確実性を定量化する確率論的手法を提案する。
破損しないデータに基づいてトレーニングされた半教師付きオートエンコーダが基盤となるアーキテクチャである。
モデルの不確実性は、その分類が正しいか間違っているかに強く依存していることを示す。
論文 参考訳(メタデータ) (2021-05-27T18:47:55Z) - Learning Deep Neural Networks under Agnostic Corrupted Supervision [37.441467641123026]
我々は,汚職のタイプを前提にせずに,強力な保証を実現する効率的なロバストアルゴリズムを提案する。
本アルゴリズムは,平均勾配に対するデータポイントの集団的影響の制御に重点を置いている。
複数のベンチマークデータセットの実験は、異なる種類の汚職下でのアルゴリズムの堅牢性を実証した。
論文 参考訳(メタデータ) (2021-02-12T19:36:04Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。