論文の概要: On Catastrophic Interference in Atari 2600 Games
- arxiv url: http://arxiv.org/abs/2002.12499v2
- Date: Tue, 9 Jun 2020 17:36:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 01:19:45.872535
- Title: On Catastrophic Interference in Atari 2600 Games
- Title(参考訳): atari 2600ゲームにおける壊滅的干渉について
- Authors: William Fedus, Dibya Ghosh, John D. Martin, Marc G. Bellemare, Yoshua
Bengio, Hugo Larochelle
- Abstract要約: 干渉が高原にパフォーマンスをもたらすことを示す。
アーキテクチャ、学習アルゴリズム、環境にまたがるパフォーマンス向上を実証します。
より洗練された分析によって、あるゲームの一部を学ぶことは、しばしば他の場所で予測エラーを増加させることを示している。
- 参考スコア(独自算出の注目度): 104.61596014400892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-free deep reinforcement learning is sample inefficient. One hypothesis
-- speculated, but not confirmed -- is that catastrophic interference within an
environment inhibits learning. We test this hypothesis through a large-scale
empirical study in the Arcade Learning Environment (ALE) and, indeed, find
supporting evidence. We show that interference causes performance to plateau;
the network cannot train on segments beyond the plateau without degrading the
policy used to reach there. By synthetically controlling for interference, we
demonstrate performance boosts across architectures, learning algorithms and
environments. A more refined analysis shows that learning one segment of a game
often increases prediction errors elsewhere. Our study provides a clear
empirical link between catastrophic interference and sample efficiency in
reinforcement learning.
- Abstract(参考訳): モデルなしの深層強化学習は非効率である。
仮説の一つは、環境内の破滅的な干渉が学習を妨げるというものである。
この仮説を、アーケード学習環境(ale)における大規模実証研究を通じて検証し、裏付けとなる証拠を見つけ出す。
干渉が台地の性能を損なうことを示し、ネットワークは台地以外のセグメントで、そこに到達するポリシーを劣化させることなく訓練することができない。
干渉を合成的に制御することで、アーキテクチャ、学習アルゴリズム、環境にまたがる性能向上を示す。
より洗練された分析により、ゲームの1つのセグメントを学ぶと予測エラーが他の場所で増加することが示されている。
本研究は,強化学習における壊滅的干渉とサンプル効率の関係を明らかにした。
関連論文リスト
- Multiple Descents in Unsupervised Learning: The Role of Noise, Domain Shift and Anomalies [14.399035468023161]
教師なし学習における二重の子孫の存在について検討するが、これはほとんど注目されず、まだ完全には理解されていない領域である。
我々は、合成データと実データを用いて、様々なアプリケーションに対してモデルワイド、エポックワイド、サンプルワイドの二重降下を識別する。
論文 参考訳(メタデータ) (2024-06-17T16:24:23Z) - Can Active Sampling Reduce Causal Confusion in Offline Reinforcement
Learning? [58.942118128503104]
因果的混乱(英: Causal confusion)とは、エージェントがデータ中の不完全な急激な相関を反映するポリシーを学ぶ現象である。
この現象は特にロボット工学などの領域で顕著である。
本稿では,オフライン強化学習における因果的混乱について検討する。
論文 参考訳(メタデータ) (2023-12-28T17:54:56Z) - On Continuity of Robust and Accurate Classifiers [3.8673630752805437]
敵の訓練が仮説の堅牢性を向上させることが示されている。
仮説の頑健性と正確性は互いに相反していることが示唆されている。
本稿では,その頑健さと精度に相容れない仮説の連続性について,その代替案を提示する。
論文 参考訳(メタデータ) (2023-09-29T08:14:25Z) - When are ensembles really effective? [49.37269057899679]
分類タスクにおいて,アンサンブルが顕著な性能向上をもたらす時期について検討する。
平均誤差率に対して不一致率が大きくなると,アンサンブルにより性能が大幅に向上することを示す。
アンサンブルが実現し、大きなパフォーマンス改善をもたらすことのない、実践的なシナリオを特定します。
論文 参考訳(メタデータ) (2023-05-21T01:36:25Z) - Chaos is a Ladder: A New Theoretical Understanding of Contrastive
Learning via Augmentation Overlap [64.60460828425502]
コントラスト学習の下流性能に関する新たな保証を提案する。
我々の新しい理論は、攻撃的なデータ強化の下で、異なるクラス内サンプルのサポートがより重なり合うという知見に基づいている。
本稿では、下流の精度とよく一致した教師なしモデル選択距離ARCを提案する。
論文 参考訳(メタデータ) (2022-03-25T05:36:26Z) - Where Did You Learn That From? Surprising Effectiveness of Membership
Inference Attacks Against Temporally Correlated Data in Deep Reinforcement
Learning [114.9857000195174]
深い強化学習を産業的に広く採用する上での大きな課題は、プライバシー侵害の潜在的な脆弱性である。
本稿では, 深層強化学習アルゴリズムの脆弱性を検証し, メンバーシップ推論攻撃に適応する対戦型攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-08T23:44:57Z) - Towards a practical measure of interference for reinforcement learning [37.1734757628306]
破滅的な干渉は、多くのネットワークベースの学習システムで一般的である。
強化学習における制御のための干渉の定義を提供する。
我々の新しい干渉対策は、一般的に使われているディープラーニングアーキテクチャについて、新しい科学的疑問を提起することを可能にする。
論文 参考訳(メタデータ) (2020-07-07T22:02:00Z) - Overfitting in adversarially robust deep learning [86.11788847990783]
トレーニングセットへの過度な適合は、実際には、逆向きの堅牢なトレーニングにおいて、非常に大きなロバストなパフォーマンスを損なうことを示す。
また, 2重降下曲線のような効果は, 逆向きに訓練されたモデルでもまだ起こるが, 観測された過度なオーバーフィッティングを説明できないことを示す。
論文 参考訳(メタデータ) (2020-02-26T15:40:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。