論文の概要: Seeing is not Believing: Robust Reinforcement Learning against Spurious
Correlation
- arxiv url: http://arxiv.org/abs/2307.07907v2
- Date: Wed, 25 Oct 2023 23:51:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 04:49:11.183248
- Title: Seeing is not Believing: Robust Reinforcement Learning against Spurious
Correlation
- Title(参考訳): 見ることは信じない:純粋相関に対するロバスト強化学習
- Authors: Wenhao Ding, Laixi Shi, Yuejie Chi, Ding Zhao
- Abstract要約: 国家の異なる部分には、保存されていない共同設立者が引き起こす相関関係が存在しない。
このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。
したがって、単純かつ非構造的な不確実性集合を仮定する既存の頑健なアルゴリズムは、この問題に対処するには不十分である。
- 参考スコア(独自算出の注目度): 57.351098530477124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robustness has been extensively studied in reinforcement learning (RL) to
handle various forms of uncertainty such as random perturbations, rare events,
and malicious attacks. In this work, we consider one critical type of
robustness against spurious correlation, where different portions of the state
do not have correlations induced by unobserved confounders. These spurious
correlations are ubiquitous in real-world tasks, for instance, a self-driving
car usually observes heavy traffic in the daytime and light traffic at night
due to unobservable human activity. A model that learns such useless or even
harmful correlation could catastrophically fail when the confounder in the test
case deviates from the training one. Although motivated, enabling robustness
against spurious correlation poses significant challenges since the uncertainty
set, shaped by the unobserved confounder and causal structure, is difficult to
characterize and identify. Existing robust algorithms that assume simple and
unstructured uncertainty sets are therefore inadequate to address this
challenge. To solve this issue, we propose Robust State-Confounded Markov
Decision Processes (RSC-MDPs) and theoretically demonstrate its superiority in
avoiding learning spurious correlations compared with other robust RL
counterparts. We also design an empirical algorithm to learn the robust optimal
policy for RSC-MDPs, which outperforms all baselines in eight realistic
self-driving and manipulation tasks.
- Abstract(参考訳): ロバストネスは、ランダムな摂動、まれな出来事、悪意のある攻撃などの様々な不確実性を扱うために強化学習(RL)で広く研究されている。
本研究では, 状態の異なる部分が観察されていない共同設立者によって引き起こされる相関を持たない, スプリアス相関に対するロバスト性について検討する。
例えば、自動運転車は昼間に大量の交通を観測し、夜間には人間の活動が観測できないため、夜間に軽度の交通を観測する。
このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。
モチベーションは高いが、スプリアス相関に対する堅牢性の実現は、観察されていない共同創設者と因果構造によって形成される不確実性セットが特徴付けや識別が難しいため、重大な課題をもたらす。
したがって、単純で非構造化の不確実性集合を仮定する既存のロバストなアルゴリズムは、この課題に対処するには不十分である。
そこで本研究では,rcc-mdps(ロバスト・ステート・コングド・マルコフ決定プロセス)を提案するとともに,他のロバストなrl法と比較して,スプリアス相関の学習を回避し,その優位性を理論的に実証する。
我々はまた,RCC-MDPのロバストな最適ポリシーを学ぶための経験的アルゴリズムを設計し,現実的な8つの自動運転および操作タスクにおいて,すべてのベースラインを上回ります。
関連論文リスト
- Towards Robust Text Classification: Mitigating Spurious Correlations with Causal Learning [2.7813683000222653]
本稿では,因果関係へのモデル依存を軽減するために,因果相関ロバスト (CCR) を提案する。
CCRは、逆確率重み付け(IPW)損失関数とともに、反ファクト推論に基づく因果的特徴選択法を統合する。
グループラベルを持たないメソッド間でのCCRの最先端性能を示し、場合によってはグループラベルを利用するモデルと競合する。
論文 参考訳(メタデータ) (2024-11-01T21:29:07Z) - Is Difficulty Calibration All We Need? Towards More Practical Membership Inference Attacks [16.064233621959538]
我々は,textbfRe-levertextbfA を直接 textbfRe-levertextbfA を用いて mtextbfItigate the error in textbfDifficulty calibration を提案する。
論文 参考訳(メタデータ) (2024-08-31T11:59:42Z) - Distributionally Robust Reinforcement Learning with Interactive Data Collection: Fundamental Hardness and Near-Optimal Algorithm [14.517103323409307]
Sim-to-realのギャップは、トレーニングとテスト環境の相違を表している。
この課題に対処するための有望なアプローチは、分布的に堅牢なRLである。
我々は対話型データ収集によるロバストなRLに取り組み、証明可能なサンプル複雑性を保証するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-04T16:40:22Z) - Causal Representation Learning Made Identifiable by Grouping of Observational Variables [8.157856010838382]
因果表現学習(Causal Representation Learning)は、データ駆動型で隠れた機能の因果モデルを学ぶことを目的としている。
ここでは、新規で弱い制約に基づく識別可能性を示す。
また,モデルに整合した新たな自己教師付き推定フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T10:38:02Z) - Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations [98.5802673062712]
我々は時間的に結合した摂動を導入し、既存の頑健な強化学習手法に挑戦する。
本稿では、時間的に結合したロバストなRL問題を部分的に観測可能な2プレイヤーゼロサムゲームとして扱う新しいゲーム理論であるGRADを提案する。
論文 参考訳(メタデータ) (2023-07-22T12:10:04Z) - Uncertainty-Aware Bootstrap Learning for Joint Extraction on
Distantly-Supervised Data [36.54640096189285]
ブートストラップ学習は、インスタンスの不確実性が高ければ高いほど、モデルの信頼性は基礎的な真実と矛盾する可能性が高いという直感によって動機付けられます。
まず、まずインスタンスレベルのデータ不確実性を調べて、信頼度の高い最初の例を作成します。
ブートストラップ学習において,ノイズラベルが生成するモデル間不確実性を軽減するために,正規化器としての自己認識を提案する。
論文 参考訳(メタデータ) (2023-05-05T20:06:11Z) - Probabilistically Robust Learning: Balancing Average- and Worst-case
Performance [105.87195436925722]
我々は、正確で不安定な平均ケースと頑健で保守的な最悪のケースのギャップを埋める、堅牢性確率というフレームワークを提案する。
理論的には、このフレームワークはパフォーマンスと最悪のケースと平均ケース学習のサンプル複雑さの間のトレードオフを克服する。
論文 参考訳(メタデータ) (2022-02-02T17:01:38Z) - Non-Singular Adversarial Robustness of Neural Networks [58.731070632586594]
小さな入力摂動に対する過敏性のため、アドリヤルロバスト性はニューラルネットワークにとって新たな課題となっている。
我々は,データ入力とモデル重みの共振レンズを用いて,ニューラルネットワークの非特異な対角性の概念を定式化する。
論文 参考訳(メタデータ) (2021-02-23T20:59:30Z) - Disentangling Observed Causal Effects from Latent Confounders using
Method of Moments [67.27068846108047]
我々は、軽度の仮定の下で、識別性と学習可能性に関する保証を提供する。
我々は,線形制約付き結合テンソル分解に基づく効率的なアルゴリズムを開発し,スケーラブルで保証可能な解を得る。
論文 参考訳(メタデータ) (2021-01-17T07:48:45Z) - Learning Causal Models Online [103.87959747047158]
予測モデルは、予測を行うためにデータの急激な相関に依存することができる。
強い一般化を達成するための一つの解決策は、モデルに因果構造を組み込むことである。
本稿では,突発的特徴を継続的に検出・除去するオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-12T20:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。