論文の概要: Linear Regression Games: Convergence Guarantees to Approximate
Out-of-Distribution Solutions
- arxiv url: http://arxiv.org/abs/2010.15234v1
- Date: Wed, 28 Oct 2020 21:10:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 05:46:40.207327
- Title: Linear Regression Games: Convergence Guarantees to Approximate
Out-of-Distribution Solutions
- Title(参考訳): 線形回帰ゲーム:近似分散解に対する収束保証
- Authors: Kartik Ahuja, Karthikeyan Shanmugam, Amit Dhurandhar
- Abstract要約: 本研究では,アンサンブルゲームに$ell_infty$の球体を投影することにより,線形回帰に対するAhuja et al.のフレームワークを拡張した。
このような予測は、完全な不変性を達成していないにもかかわらず、非自明なOOD保証を達成するのに有効であることを示す。
- 参考スコア(独自算出の注目度): 35.313551211453266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, invariant risk minimization (IRM) (Arjovsky et al.) was proposed as
a promising solution to address out-of-distribution (OOD) generalization. In
Ahuja et al., it was shown that solving for the Nash equilibria of a new class
of "ensemble-games" is equivalent to solving IRM. In this work, we extend the
framework in Ahuja et al. for linear regressions by projecting the
ensemble-game on an $\ell_{\infty}$ ball. We show that such projections help
achieve non-trivial OOD guarantees despite not achieving perfect invariance.
For linear models with confounders, we prove that Nash equilibria of these
games are closer to the ideal OOD solutions than the standard empirical risk
minimization (ERM) and we also provide learning algorithms that provably
converge to these Nash Equilibria. Empirical comparisons of the proposed
approach with the state-of-the-art show consistent gains in achieving OOD
solutions in several settings involving anti-causal variables and confounders.
- Abstract(参考訳): 近年,out-of-distribution (ood) 一般化に対処するための有望な解決策として,irm (arjovsky et al.) が提案されている。
Ahujaらでは、新しいタイプの「アンサンブルゲーム」のナッシュ均衡の解法はIRMの解法と同値であることが示されている。
本研究では,Ahujaらによる線形回帰のためのフレームワークを拡張し,$\ell_{\infty}$ Ball上でアンサンブルゲームを投影する。
このような射影は完全不変性が得られていないにもかかわらず、自明な ood 保証を達成するのに役立つ。
共同創設者を持つ線形モデルの場合、これらのゲームのナッシュ平衡は標準的な経験的リスク最小化(ERM)よりも理想的なOOD解に近づき、ナッシュ平衡に確実に収束する学習アルゴリズムも提供する。
提案手法と最先端技術との実証的な比較は, 反因果変数や共同設立者を含むいくつかの条件下でのOODソリューションの実現において一貫した利得を示している。
関連論文リスト
- Independent RL for Cooperative-Competitive Agents: A Mean-Field Perspective [11.603515105957461]
この論文では、各チーム間には協力関係があるが、異なるチーム間での一般的な競争があるように、チームにグループ化されるエージェント間の強化学習(RL)に対処する。
論文 参考訳(メタデータ) (2024-03-17T21:11:55Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Improving Sample Efficiency of Model-Free Algorithms for Zero-Sum Markov Games [66.2085181793014]
モデルフリーのステージベースQ-ラーニングアルゴリズムはモデルベースアルゴリズムと同じ$H$依存の最適性を享受できることを示す。
本アルゴリズムは,楽観的値関数と悲観的値関数のペアとして参照値関数を更新するキーとなる新しい設計を特徴とする。
論文 参考訳(メタデータ) (2023-08-17T08:34:58Z) - Soft-Bellman Equilibrium in Affine Markov Games: Forward Solutions and
Inverse Learning [37.176741793213694]
我々は、アフィン・マルコフゲームと呼ばれるマルコフゲームのクラスを定式化し、アフィン報酬関数はプレイヤーの行動と一致する。
我々は,各プレイヤーが有理的に有理であり,ソフト・ベルマンポリシーを選択するような,新しい解の概念,ソフト・ベルマン均衡を導入する。
そこで我々は,プロジェクテッド・グラディエント・アルゴリズムを用いて,観測された状態-行動軌跡からプレイヤーの報酬パラメータを推定する逆ゲーム問題を解く。
論文 参考訳(メタデータ) (2023-03-31T22:50:47Z) - Differentiable Arbitrating in Zero-sum Markov Games [59.62061049680365]
ゼロサムマルコフゲームにおいて、2人のプレイヤーが望ましいナッシュ均衡、すなわち仲裁を誘導する報酬を摂動する方法を研究する。
低いレベルでは、与えられた報酬関数の下でのナッシュ均衡の解決が必要であり、それによって全体的な問題をエンドツーエンドで最適化することが難しくなる。
上層階の勾配フィードバックを提供するナッシュ平衡を微分するバックプロパゲーション方式を提案する。
論文 参考訳(メタデータ) (2023-02-20T16:05:04Z) - Offline Learning in Markov Games with General Function Approximation [22.2472618685325]
マルコフゲームにおけるオフラインマルチエージェント強化学習(RL)について検討する。
マルコフゲームにおけるサンプル効率のよいオフライン学習のための最初のフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-06T05:22:27Z) - Multi-Agent Training beyond Zero-Sum with Correlated Equilibrium Meta-Solvers [21.462231105582347]
本稿では,n-player, general-sum extensive form game におけるエージェントのトレーニングアルゴリズムを提案する。
また,メタソリューションとして相関平衡(CE)を提案するとともに,新しい解法概念であるGini Correlated Equilibrium(MGCE)を提案する。
JPSROのためのCEメタソルバを用いていくつかの実験を行い、n-player, general-sumゲーム上で収束を示す。
論文 参考訳(メタデータ) (2021-06-17T12:34:18Z) - A Variational Inequality Approach to Bayesian Regression Games [90.79402153164587]
我々は凸類の一意性の存在を証明し、それを滑らかなコスト関数に一般化する。
必然的に強い収束で解くための2つの簡単なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-03-24T22:33:11Z) - Learning Zero-Sum Simultaneous-Move Markov Games Using Function
Approximation and Correlated Equilibrium [116.56359444619441]
両プレイヤーのゼロサム有限ホライゾンマルコフゲームに対する効率の良い強化学習アルゴリズムを開発した。
オフライン環境では、両プレイヤーを制御し、双対性ギャップを最小化してナッシュ平衡を求める。
オンライン環境では、任意の相手と対戦する1人のプレイヤーを制御し、後悔を最小限に抑える。
論文 参考訳(メタデータ) (2020-02-17T17:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。