論文の概要: Out-of-Distribution Optimality of Invariant Risk Minimization
- arxiv url: http://arxiv.org/abs/2307.11972v1
- Date: Sat, 22 Jul 2023 03:31:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 18:37:50.027031
- Title: Out-of-Distribution Optimality of Invariant Risk Minimization
- Title(参考訳): 不変リスク最小化の分散最適性
- Authors: Shoji Toyota, Kenji Fukumizu
- Abstract要約: 不変リスク最小化(IRM)は、o.o.d.リスクを最小化するための有望なアプローチであると考えられている。
本稿では、二段階最適化問題の解が特定の条件下でのo.o.d.リスクを最小限に抑えることを厳密に証明する。
- 参考スコア(独自算出の注目度): 17.53032543377636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Neural Networks often inherit spurious correlations embedded in training
data and hence may fail to generalize to unseen domains, which have different
distributions from the domain to provide training data. M. Arjovsky et al.
(2019) introduced the concept out-of-distribution (o.o.d.) risk, which is the
maximum risk among all domains, and formulated the issue caused by spurious
correlations as a minimization problem of the o.o.d. risk. Invariant Risk
Minimization (IRM) is considered to be a promising approach to minimize the
o.o.d. risk: IRM estimates a minimum of the o.o.d. risk by solving a bi-level
optimization problem. While IRM has attracted considerable attention with
empirical success, it comes with few theoretical guarantees. Especially, a
solid theoretical guarantee that the bi-level optimization problem gives the
minimum of the o.o.d. risk has not yet been established. Aiming at providing a
theoretical justification for IRM, this paper rigorously proves that a solution
to the bi-level optimization problem minimizes the o.o.d. risk under certain
conditions. The result also provides sufficient conditions on distributions
providing training data and on a dimension of feature space for the bi-leveled
optimization problem to minimize the o.o.d. risk.
- Abstract(参考訳): ディープニューラルネットワークは、トレーニングデータに埋め込まれたスプリアス相関を継承することが多いため、トレーニングデータを提供するためにドメインと異なる分布を持つ未発見領域への一般化に失敗する可能性がある。
M. Arjovsky et al. (2019) は、すべてのドメインの最大のリスクであるアウト・オブ・ディストリビューション(o.o.d.)リスクの概念を導入し、o.o.d.リスクの最小化問題として急激な相関による問題を定式化した。
不変リスク最小化(IRM)は、o.o.d.リスクを最小化するための有望なアプローチであると考えられている。
IRMは経験的成功でかなりの注目を集めているが、理論的な保証はほとんどない。
特に、二段階最適化問題がo.o.d.リスクの最小値を与えるという確固たる理論的保証はまだ確立されていない。
IRMの理論的正当性の提供を目的として、二段階最適化問題の解が特定の条件下でのo.o.d.リスクを最小限に抑えることを厳密に証明する。
この結果はまた、トレーニングデータを提供する分布や、o.o.d.リスクを最小限に抑えるために、双レベル最適化問題の特徴空間の次元に十分な条件を与える。
関連論文リスト
- Pessimism Meets Risk: Risk-Sensitive Offline Reinforcement Learning [19.292214425524303]
リスクに敏感な強化学習(RL)は,不確実性を管理し,潜在的な有害な結果を最小限に抑えることが不可欠であるシナリオにおいて,意思決定を強化する能力において重要な分野である。
本研究は, エントロピーリスク尺度をRL問題に適用することに焦点を当てる。
我々は,リスクに敏感な観点からはまだ検討されていない理論的枠組みである線形マルコフ決定プロセス(MDP)の設定を中心としている。
論文 参考訳(メタデータ) (2024-07-10T13:09:52Z) - Spectral-Risk Safe Reinforcement Learning with Convergence Guarantees [13.470544618339506]
本稿では、スペクトルリスク尺度制約付きRLアルゴリズム、スペクトルリスク制約付きポリシー最適化(SRCPO)を提案する。
双レベル最適化構造では、外部問題はリスク測度から導出される双対変数を最適化することであり、内部問題は最適ポリシーを見つけることである。
提案手法は連続制御タスク上で評価され,制約を満たす他のRCRLアルゴリズムの中で最高の性能を示した。
論文 参考訳(メタデータ) (2024-05-29T02:17:25Z) - Robust Risk-Sensitive Reinforcement Learning with Conditional Value-at-Risk [23.63388546004777]
我々はロバスト・マルコフ決定過程の下でCVaRに基づくリスク感受性RLのロバスト性を分析する。
実世界の問題における意思決定依存の不確実性の存在を動機として、状態行動依存曖昧性集合による問題を研究する。
論文 参考訳(メタデータ) (2024-05-02T20:28:49Z) - Risk-Sensitive RL with Optimized Certainty Equivalents via Reduction to
Standard RL [48.1726560631463]
我々は,OCE(Optimized Certainty Equivalent)リスクを用いたリスク感性強化学習について検討した。
標準RLへの還元による2つの一般的なメタアルゴリズムを提案する。
我々は,事前アルゴリズムが確実に失敗する間に,最適リスク感応ポリシーを学習することを示す。
論文 参考訳(メタデータ) (2024-03-10T21:45:12Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Domain Generalization without Excess Empirical Risk [83.26052467843725]
一般的なアプローチは、一般化を捉え、ペナルティと共同で経験的リスクを最小化するために、データ駆動の代理ペナルティを設計することである。
我々は、このレシピの重大な失敗モードは、共同最適化における誤ったペナルティや難しさによる過度なリスクであると主張している。
我々は,この問題を解消するアプローチを提案し,経験的リスクと刑罰を同時に最小化する代わりに,経験的リスクの最適性の制約の下でのペナルティを最小化する。
論文 参考訳(メタデータ) (2023-08-30T08:46:46Z) - Efficient Stochastic Approximation of Minimax Excess Risk Optimization [36.68685001551774]
我々はMEROを直接対象とする効率的な近似手法を開発した。
最小リスクの推定誤差に起因するバイアスが制御下にあることを示す。
また,各分布から抽出したサンプルの量が異なる場合の現実的シナリオについても検討し,分布依存収束率を導出する手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T02:21:11Z) - On the Variance, Admissibility, and Stability of Empirical Risk
Minimization [80.26309576810844]
2乗損失を持つ経験的リスク最小化(ERM)は、極小最適誤差率に達する可能性がある。
軽微な仮定では、ERMの準最適性はばらつきよりも大きなバイアスによるものでなければならない。
また、我々の推定は、非ドンスカー類に対するCaponnetto と Rakhlin (2006) の主な結果を補完する ERM の安定性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T15:25:48Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Empirical Risk Minimization with Relative Entropy Regularization:
Optimality and Sensitivity Analysis [7.953455469099826]
ERM-RER問題の解からの偏差に対する期待される経験的リスクの感度について検討した。
感度の期待値は、モデルとデータセット間のラウタム情報の正方根によって、最大で一定の係数まで上限づけられている。
論文 参考訳(メタデータ) (2022-02-09T10:55:14Z) - The Risks of Invariant Risk Minimization [52.7137956951533]
不変リスク最小化(Invariant Risk Minimization)は、データの深い不変性を学ぶという考え方に基づく目標である。
我々は、IRMの目的に基づく分類の最初の分析と、最近提案されたこれらの代替案について、かなり自然で一般的なモデルで分析する。
IRMは、テストデータがトレーニング分布と十分に類似していない限り、破滅的に失敗する可能性がある。
論文 参考訳(メタデータ) (2020-10-12T14:54:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。