論文の概要: Formalizing the Generalization-Forgetting Trade-off in Continual
Learning
- arxiv url: http://arxiv.org/abs/2109.14035v1
- Date: Tue, 28 Sep 2021 20:39:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 03:23:09.095914
- Title: Formalizing the Generalization-Forgetting Trade-off in Continual
Learning
- Title(参考訳): 継続的学習における一般化・フォーゲッティングトレードオフの形式化
- Authors: Krishnan Raghavan, Prasanna Balaprakash
- Abstract要約: 破滅的な忘れと一般化のトレードオフを2つのプレイヤーシーケンシャルゲームとしてモデル化する。
理論的には、2人のプレイヤー間のバランスポイントが各タスクに存在し、このポイントが安定であることを示す。
次に、一般化と忘れのバランスをとるために設計されたバランス付き連続学習(BCL)を導入する。
- 参考スコア(独自算出の注目度): 1.370633147306388
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We formulate the continual learning (CL) problem via dynamic programming and
model the trade-off between catastrophic forgetting and generalization as a
two-player sequential game. In this approach, player 1 maximizes the cost due
to lack of generalization whereas player 2 minimizes the cost due to
catastrophic forgetting. We show theoretically that a balance point between the
two players exists for each task and that this point is stable (once the
balance is achieved, the two players stay at the balance point). Next, we
introduce balanced continual learning (BCL), which is designed to attain
balance between generalization and forgetting and empirically demonstrate that
BCL is comparable to or better than the state of the art.
- Abstract(参考訳): 本研究では,動的プログラミングによる連続学習(CL)問題を定式化し,破滅的な忘れ込みと2プレイヤーシーケンシャルゲームとしての一般化とのトレードオフをモデル化する。
このアプローチでは、プレイヤー1は一般化の欠如によるコストを最大化し、プレイヤー2は壊滅的な忘れによるコストを最小化する。
両プレイヤー間のバランスポイントが各タスクに存在し、このポイントが安定であることを理論的に示す(バランスが達成されれば、両プレイヤーはバランスポイントにとどまる)。
次に,一般化と忘れることのバランスをとるように設計されたバランス付き連続学習(bcl)を導入し,bclが芸術の状況に匹敵するあるいは優れていることを実証的に示す。
関連論文リスト
- No-regret learning in harmonic games: Extrapolation in the face of conflicting interests [45.94247914236653]
学習は任意の初期状態からナッシュ均衡に収束し、すべてのプレイヤーは、ほとんどのO(1)後悔において保証される。
結果は、ハーモニックゲームにおける非回帰学習の深い理解を提供する。
論文 参考訳(メタデータ) (2024-12-28T16:28:13Z) - Corrupted Learning Dynamics in Games [62.73758165845971]
すべてのプレイヤーが楽観的な追従型リーダー(OFTRL)に従うと、平衡は$O(log T)$の速さで計算できる。
本稿では,各プレイヤーが所定のアルゴリズムによって提案される戦略から逸脱する程度に依存する速度で,適応的に平衡を求める学習ダイナミクスを提案する。
論文 参考訳(メタデータ) (2024-12-10T02:23:44Z) - Barriers to Welfare Maximization with No-Regret Learning [68.66209476382213]
我々は、ほぼ最適の$T$-sparse CCEの計算限界を低く証明する。
特に,最大傾斜角の不適応性は,時間内に非自明な間隔を達成できないことを示す。
論文 参考訳(メタデータ) (2024-11-04T00:34:56Z) - Optimistic Policy Gradient in Multi-Player Markov Games with a Single
Controller: Convergence Beyond the Minty Property [89.96815099996132]
単一コントローラを用いたマルチプレイヤーゲームにおいて,楽観的なポリシー勾配手法を特徴付ける新しいフレームワークを開発した。
我々のアプローチは、我々が導入する古典的なミニティの自然一般化に依存しており、マルコフゲームを超えてさらなる応用が期待できる。
論文 参考訳(メタデータ) (2023-12-19T11:34:10Z) - Differentiable Arbitrating in Zero-sum Markov Games [59.62061049680365]
ゼロサムマルコフゲームにおいて、2人のプレイヤーが望ましいナッシュ均衡、すなわち仲裁を誘導する報酬を摂動する方法を研究する。
低いレベルでは、与えられた報酬関数の下でのナッシュ均衡の解決が必要であり、それによって全体的な問題をエンドツーエンドで最適化することが難しくなる。
上層階の勾配フィードバックを提供するナッシュ平衡を微分するバックプロパゲーション方式を提案する。
論文 参考訳(メタデータ) (2023-02-20T16:05:04Z) - How Bad is Selfish Driving? Bounding the Inefficiency of Equilibria in
Urban Driving Games [64.71476526716668]
我々は,任意の平衡選手がプレーに同意するであろう効率について検討する。
我々は、アナーキーの価格に関する既存の境界を洗練させる保証を得る。
提案手法はオープンループ軌道に対する懸念を保証しているが,エージェントがクローズドループポリシーを採用する場合においても,効率的な平衡を観測する。
論文 参考訳(メタデータ) (2022-10-24T09:32:40Z) - Learning Correlated Equilibria in Mean-Field Games [62.14589406821103]
我々は平均場相関と粗相関平衡の概念を発展させる。
ゲームの構造に関する仮定を必要とせず,効率よくゲーム内で学習できることが示される。
論文 参考訳(メタデータ) (2022-08-22T08:31:46Z) - Survival of the strictest: Stable and unstable equilibria under
regularized learning with partial information [32.384868685390906]
一般Nプレイヤーゲームにおける非回帰学習のナッシュ平衡収束特性について検討する。
ナッシュ平衡の安定性と支持との包括的な等価性を確立します。
ゲームにおける非学習の日々の行動を予測するための明確な洗練基準を提供する。
論文 参考訳(メタデータ) (2021-01-12T18:55:11Z) - Game-theoretic Models of Moral and Other-Regarding Agents [0.0]
我々は、計算の難易度、高い調整コスト、一般的な正規形式ゲームへの高価でプロブレマ的な拡張など、そのような平衡性に関する多くの問題を強調する。
そこで本研究では,カンチアン平衡に関連する一般的,直感的,計算的,他的に考慮可能な平衡と,純粋に自己完結的行動とカンチアン行動とを補間する行動コースのクラスを提案する。
論文 参考訳(メタデータ) (2020-12-17T17:16:50Z) - Hindsight and Sequential Rationality of Correlated Play [18.176128899338433]
私たちは、修正された振る舞いで達成できたことに対して、強いパフォーマンスを後見で保証するアルゴリズムを検討します。
我々は,学習の隠れた枠組みを,逐次的な意思決定の場で開発し,提唱する。
本稿では,それぞれの平衡の強さと弱さを文献に示す例を示す。
論文 参考訳(メタデータ) (2020-12-10T18:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。