論文の概要: Seeing is not Believing: Robust Reinforcement Learning against Spurious
Correlation
- arxiv url: http://arxiv.org/abs/2307.07907v1
- Date: Sat, 15 Jul 2023 23:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 17:09:10.020360
- Title: Seeing is not Believing: Robust Reinforcement Learning against Spurious
Correlation
- Title(参考訳): 見ることは信じない:純粋相関に対するロバスト強化学習
- Authors: Wenhao Ding, Laixi Shi, Yuejie Chi, Ding Zhao
- Abstract要約: 我々は、国家の異なる部分が因果関係を持たず、保存されていない共同設立者によって引き起こされる相関関係を持つ、急激な相関に対するロバスト性の1つの重要なタイプを考察する。
このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。
したがって、単純かつ非構造的な不確実性集合を仮定する既存の頑健なアルゴリズムは、この問題に対処するには不十分である。
本稿では,ロバスト州立マルコフ決定過程(RSC-MDPs)を提案する。
- 参考スコア(独自算出の注目度): 46.339208970207814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robustness has been extensively studied in reinforcement learning (RL) to
handle various forms of uncertainty such as random perturbations, rare events,
and malicious attacks. In this work, we consider one critical type of
robustness against spurious correlation, where different portions of the state
do not have causality but have correlations induced by unobserved confounders.
These spurious correlations are ubiquitous in real-world tasks, for instance, a
self-driving car usually observes heavy traffic in the daytime and light
traffic at night due to unobservable human activity. A model that learns such
useless or even harmful correlation could catastrophically fail when the
confounder in the test case deviates from the training one. Although motivated,
enabling robustness against spurious correlation poses significant challenges
since the uncertainty set, shaped by the unobserved confounder and sequential
structure of RL, is difficult to characterize and identify. Existing robust
algorithms that assume simple and unstructured uncertainty sets are therefore
inadequate to address this challenge. To solve this issue, we propose Robust
State-Confounded Markov Decision Processes (RSC-MDPs) and theoretically
demonstrate its superiority in breaking spurious correlations compared with
other robust RL counterparts. We also design an empirical algorithm to learn
the robust optimal policy for RSC-MDPs, which outperforms all baselines in
eight realistic self-driving and manipulation tasks.
- Abstract(参考訳): ロバストネスは、ランダムな摂動、まれな出来事、悪意のある攻撃などの様々な不確実性を扱うために強化学習(RL)で広く研究されている。
本研究では, 国家の異なる部分が因果関係を持たず, 保存されていない共同設立者によって引き起こされる相関関係を持つ, 突発的相関に対するロバスト性について考察する。
例えば、自動運転車は昼間に大量の交通を観測し、夜間には人間の活動が観測できないため、夜間に軽度の交通を観測する。
このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。
モチベーションは高いが、スプリアス相関に対するロバスト性の実現は、rlの観測されていない共作者とシーケンシャルな構造によって形成される不確実性セットが特徴付けや識別が難しいため、重大な課題をもたらす。
したがって、単純で非構造化の不確実性集合を仮定する既存のロバストなアルゴリズムは、この課題に対処するには不十分である。
そこで本研究では,rcc-mdps(ロバスト・ステート・コングド・マルコフ決定プロセス)を提案するとともに,他のロバストなrl法と比較して,スプリアス相関を破る上での優位性を理論的に実証する。
我々はまた,RCC-MDPのロバストな最適ポリシーを学ぶための経験的アルゴリズムを設計し,現実的な8つの自動運転および操作タスクにおいて,すべてのベースラインを上回ります。
関連論文リスト
- Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - Is Difficulty Calibration All We Need? Towards More Practical Membership Inference Attacks [16.064233621959538]
我々は,textbfRe-levertextbfA を直接 textbfRe-levertextbfA を用いて mtextbfItigate the error in textbfDifficulty calibration を提案する。
論文 参考訳(メタデータ) (2024-08-31T11:59:42Z) - Time-Constrained Robust MDPs [28.641743425443]
我々は,多因子性,相関性,時間依存障害を考慮した新しい時間制約型ロバストMDP(TC-RMDP)の定式化を導入する。
本研究では、ロバストなRLにおける一般的な仮定を再考し、より実用的で現実的なRLアプリケーションを開発するための新たな道を開く。
論文 参考訳(メタデータ) (2024-06-12T16:45:09Z) - Distributionally Robust Reinforcement Learning with Interactive Data Collection: Fundamental Hardness and Near-Optimal Algorithm [14.517103323409307]
Sim-to-realのギャップは、トレーニングとテスト環境の相違を表している。
この課題に対処するための有望なアプローチは、分布的に堅牢なRLである。
我々は対話型データ収集によるロバストなRLに取り組み、証明可能なサンプル複雑性を保証するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-04T16:40:22Z) - Causal Representation Learning Made Identifiable by Grouping of Observational Variables [8.157856010838382]
因果表現学習(Causal Representation Learning)は、データ駆動型で隠れた機能の因果モデルを学ぶことを目的としている。
ここでは、新規で弱い制約に基づく識別可能性を示す。
また,モデルに整合した新たな自己教師付き推定フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T10:38:02Z) - Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations [98.5802673062712]
我々は時間的に結合した摂動を導入し、既存の頑健な強化学習手法に挑戦する。
本稿では、時間的に結合したロバストなRL問題を部分的に観測可能な2プレイヤーゼロサムゲームとして扱う新しいゲーム理論であるGRADを提案する。
論文 参考訳(メタデータ) (2023-07-22T12:10:04Z) - Uncertainty-Aware Bootstrap Learning for Joint Extraction on
Distantly-Supervised Data [36.54640096189285]
ブートストラップ学習は、インスタンスの不確実性が高ければ高いほど、モデルの信頼性は基礎的な真実と矛盾する可能性が高いという直感によって動機付けられます。
まず、まずインスタンスレベルのデータ不確実性を調べて、信頼度の高い最初の例を作成します。
ブートストラップ学習において,ノイズラベルが生成するモデル間不確実性を軽減するために,正規化器としての自己認識を提案する。
論文 参考訳(メタデータ) (2023-05-05T20:06:11Z) - Non-Singular Adversarial Robustness of Neural Networks [58.731070632586594]
小さな入力摂動に対する過敏性のため、アドリヤルロバスト性はニューラルネットワークにとって新たな課題となっている。
我々は,データ入力とモデル重みの共振レンズを用いて,ニューラルネットワークの非特異な対角性の概念を定式化する。
論文 参考訳(メタデータ) (2021-02-23T20:59:30Z) - Disentangling Observed Causal Effects from Latent Confounders using
Method of Moments [67.27068846108047]
我々は、軽度の仮定の下で、識別性と学習可能性に関する保証を提供する。
我々は,線形制約付き結合テンソル分解に基づく効率的なアルゴリズムを開発し,スケーラブルで保証可能な解を得る。
論文 参考訳(メタデータ) (2021-01-17T07:48:45Z) - Learning Causal Models Online [103.87959747047158]
予測モデルは、予測を行うためにデータの急激な相関に依存することができる。
強い一般化を達成するための一つの解決策は、モデルに因果構造を組み込むことである。
本稿では,突発的特徴を継続的に検出・除去するオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-12T20:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。