Fugu-MT 論文翻訳(概要): Seeing is not Believing: Robust Reinforcement Learning against Spurious Correlation

論文の概要: Seeing is not Believing: Robust Reinforcement Learning against Spurious Correlation

arxiv url: http://arxiv.org/abs/2307.07907v2
Date: Wed, 25 Oct 2023 23:51:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-28 04:49:11.183248
Title: Seeing is not Believing: Robust Reinforcement Learning against Spurious Correlation
Title（参考訳）: 見ることは信じない:純粋相関に対するロバスト強化学習
Authors: Wenhao Ding, Laixi Shi, Yuejie Chi, Ding Zhao
Abstract要約: 国家の異なる部分には、保存されていない共同設立者が引き起こす相関関係が存在しない。このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。したがって、単純かつ非構造的な不確実性集合を仮定する既存の頑健なアルゴリズムは、この問題に対処するには不十分である。
参考スコア（独自算出の注目度）: 57.351098530477124
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Robustness has been extensively studied in reinforcement learning (RL) to handle various forms of uncertainty such as random perturbations, rare events, and malicious attacks. In this work, we consider one critical type of robustness against spurious correlation, where different portions of the state do not have correlations induced by unobserved confounders. These spurious correlations are ubiquitous in real-world tasks, for instance, a self-driving car usually observes heavy traffic in the daytime and light traffic at night due to unobservable human activity. A model that learns such useless or even harmful correlation could catastrophically fail when the confounder in the test case deviates from the training one. Although motivated, enabling robustness against spurious correlation poses significant challenges since the uncertainty set, shaped by the unobserved confounder and causal structure, is difficult to characterize and identify. Existing robust algorithms that assume simple and unstructured uncertainty sets are therefore inadequate to address this challenge. To solve this issue, we propose Robust State-Confounded Markov Decision Processes (RSC-MDPs) and theoretically demonstrate its superiority in avoiding learning spurious correlations compared with other robust RL counterparts. We also design an empirical algorithm to learn the robust optimal policy for RSC-MDPs, which outperforms all baselines in eight realistic self-driving and manipulation tasks.
Abstract（参考訳）: ロバストネスは、ランダムな摂動、まれな出来事、悪意のある攻撃などの様々な不確実性を扱うために強化学習(RL)で広く研究されている。本研究では, 状態の異なる部分が観察されていない共同設立者によって引き起こされる相関を持たない, スプリアス相関に対するロバスト性について検討する。例えば、自動運転車は昼間に大量の交通を観測し、夜間には人間の活動が観測できないため、夜間に軽度の交通を観測する。このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。モチベーションは高いが、スプリアス相関に対する堅牢性の実現は、観察されていない共同創設者と因果構造によって形成される不確実性セットが特徴付けや識別が難しいため、重大な課題をもたらす。したがって、単純で非構造化の不確実性集合を仮定する既存のロバストなアルゴリズムは、この課題に対処するには不十分である。そこで本研究では,rcc-mdps(ロバスト・ステート・コングド・マルコフ決定プロセス)を提案するとともに,他のロバストなrl法と比較して,スプリアス相関の学習を回避し,その優位性を理論的に実証する。我々はまた,RCC-MDPのロバストな最適ポリシーを学ぶための経験的アルゴリズムを設計し,現実的な8つの自動運転および操作タスクにおいて,すべてのベースラインを上回ります。

関連論文リスト

Fairness and Robustness in Machine Unlearning [20.758637391023345]
機械学習アルゴリズムにおける公平性と堅牢性に焦点を当てる。実験では、現在の最先端の非学習アルゴリズムが敵攻撃に対する脆弱性を実証している。中間層と最後の層でのアンラーニングが時間とメモリの複雑さに十分で費用対効果があることを実証する。
論文参考訳（メタデータ） (2025-04-18T10:31:44Z)
Exploring LLM Reasoning Through Controlled Prompt Variations [0.9217021281095907]
我々は,4種類の急激な摂動に直面する場合,最先端モデルが論理的整合性と正当性を維持するかを評価する。 13個のオープンソースおよびクローズドソース LLM を用いて実験を行った結果,モデルコンテキストウィンドウ内に無関係なコンテキストを導入することで,性能が著しく低下することが判明した。ある摂動は、明示的なプロンプトなしでも、必然的にチェーンオブ思考のような推論行動を引き起こす。
論文参考訳（メタデータ） (2025-04-02T20:18:50Z)
Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文参考訳（メタデータ） (2025-02-01T18:09:49Z)
Towards Robust Text Classification: Mitigating Spurious Correlations with Causal Learning [2.7813683000222653]
本稿では,因果関係へのモデル依存を軽減するために,因果相関ロバスト (CCR) を提案する。 CCRは、逆確率重み付け(IPW)損失関数とともに、反ファクト推論に基づく因果的特徴選択法を統合する。グループラベルを持たないメソッド間でのCCRの最先端性能を示し、場合によってはグループラベルを利用するモデルと競合する。
論文参考訳（メタデータ） (2024-11-01T21:29:07Z)
Is Difficulty Calibration All We Need? Towards More Practical Membership Inference Attacks [16.064233621959538]
我々は,textbfRe-levertextbfA を直接 textbfRe-levertextbfA を用いて mtextbfItigate the error in textbfDifficulty calibration を提案する。
論文参考訳（メタデータ） (2024-08-31T11:59:42Z)
Distributionally Robust Reinforcement Learning with Interactive Data Collection: Fundamental Hardness and Near-Optimal Algorithm [14.517103323409307]
Sim-to-realのギャップは、トレーニングとテスト環境の相違を表している。この課題に対処するための有望なアプローチは、分布的に堅牢なRLである。我々は対話型データ収集によるロバストなRLに取り組み、証明可能なサンプル複雑性を保証するアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-04-04T16:40:22Z)
Causal Representation Learning Made Identifiable by Grouping of Observational Variables [8.157856010838382]
因果表現学習(Causal Representation Learning)は、データ駆動型で隠れた機能の因果モデルを学ぶことを目的としている。ここでは、新規で弱い制約に基づく識別可能性を示す。また,モデルに整合した新たな自己教師付き推定フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-24T10:38:02Z)
Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations [98.5802673062712]
我々は時間的に結合した摂動を導入し、既存の頑健な強化学習手法に挑戦する。本稿では、時間的に結合したロバストなRL問題を部分的に観測可能な2プレイヤーゼロサムゲームとして扱う新しいゲーム理論であるGRADを提案する。
論文参考訳（メタデータ） (2023-07-22T12:10:04Z)
Uncertainty-Aware Bootstrap Learning for Joint Extraction on Distantly-Supervised Data [36.54640096189285]
ブートストラップ学習は、インスタンスの不確実性が高ければ高いほど、モデルの信頼性は基礎的な真実と矛盾する可能性が高いという直感によって動機付けられます。まず、まずインスタンスレベルのデータ不確実性を調べて、信頼度の高い最初の例を作成します。ブートストラップ学習において,ノイズラベルが生成するモデル間不確実性を軽減するために,正規化器としての自己認識を提案する。
論文参考訳（メタデータ） (2023-05-05T20:06:11Z)
Probabilistically Robust Learning: Balancing Average- and Worst-case Performance [105.87195436925722]
我々は、正確で不安定な平均ケースと頑健で保守的な最悪のケースのギャップを埋める、堅牢性確率というフレームワークを提案する。理論的には、このフレームワークはパフォーマンスと最悪のケースと平均ケース学習のサンプル複雑さの間のトレードオフを克服する。
論文参考訳（メタデータ） (2022-02-02T17:01:38Z)
Non-Singular Adversarial Robustness of Neural Networks [58.731070632586594]
小さな入力摂動に対する過敏性のため、アドリヤルロバスト性はニューラルネットワークにとって新たな課題となっている。我々は,データ入力とモデル重みの共振レンズを用いて,ニューラルネットワークの非特異な対角性の概念を定式化する。
論文参考訳（メタデータ） (2021-02-23T20:59:30Z)
Disentangling Observed Causal Effects from Latent Confounders using Method of Moments [67.27068846108047]
我々は、軽度の仮定の下で、識別性と学習可能性に関する保証を提供する。我々は,線形制約付き結合テンソル分解に基づく効率的なアルゴリズムを開発し,スケーラブルで保証可能な解を得る。
論文参考訳（メタデータ） (2021-01-17T07:48:45Z)
Learning Causal Models Online [103.87959747047158]
予測モデルは、予測を行うためにデータの急激な相関に依存することができる。強い一般化を達成するための一つの解決策は、モデルに因果構造を組み込むことである。本稿では,突発的特徴を継続的に検出・除去するオンラインアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-12T20:49:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。