論文の概要: Understanding What Affects the Generalization Gap in Visual Reinforcement Learning: Theory and Empirical Evidence
- arxiv url: http://arxiv.org/abs/2402.02701v2
- Date: Wed, 16 Oct 2024 08:12:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:40:22.991325
- Title: Understanding What Affects the Generalization Gap in Visual Reinforcement Learning: Theory and Empirical Evidence
- Title(参考訳): 視覚強化学習における一般化ギャップの理解:理論と実証的エビデンス
- Authors: Jiafei Lyu, Le Wan, Xiu Li, Zongqing Lu,
- Abstract要約: 本稿では,テスト環境に障害がある場合の一般化ギャップに寄与する要因について理論的に考察する。
我々の理論は、人間の直観に沿う訓練環境とテスト環境の表現距離を最小化することが、一般化のギャップを減らすことの利点として最も重要であることを示唆している。
- 参考スコア(独自算出の注目度): 53.51724434972605
- License:
- Abstract: Recently, there are many efforts attempting to learn useful policies for continuous control in visual reinforcement learning (RL). In this scenario, it is important to learn a generalizable policy, as the testing environment may differ from the training environment, e.g., there exist distractors during deployment. Many practical algorithms are proposed to handle this problem. However, to the best of our knowledge, none of them provide a theoretical understanding of what affects the generalization gap and why their proposed methods work. In this paper, we bridge this issue by theoretically answering the key factors that contribute to the generalization gap when the testing environment has distractors. Our theories indicate that minimizing the representation distance between training and testing environments, which aligns with human intuition, is the most critical for the benefit of reducing the generalization gap. Our theoretical results are supported by the empirical evidence in the DMControl Generalization Benchmark (DMC-GB).
- Abstract(参考訳): 近年、視覚強化学習(RL)において、継続的な制御のための有用なポリシーを学習しようとする試みが数多く行われている。
このシナリオでは、テスト環境がトレーニング環境と異なる可能性があるため、一般的なポリシーを学ぶことが重要です。
多くの実用的なアルゴリズムがこの問題に対処するために提案されている。
しかし、私たちの知る限りでは、これらは一般化ギャップにどのような影響があるのか、なぜ提案された手法が機能するのかを理論的に理解するものではない。
本稿では,テスト環境に障害がある場合の一般化ギャップに寄与する重要な要因を理論的に答えることで,この問題を橋渡しする。
我々の理論は、人間の直観に沿う訓練環境とテスト環境の表現距離を最小化することが、一般化のギャップを減らすことの利点として最も重要であることを示唆している。
我々の理論結果はDMControl Generalization Benchmark (DMC-GB) の実証的な証拠によって裏付けられている。
関連論文リスト
- InfoNCE: Identifying the Gap Between Theory and Practice [15.744372232355]
異方性設定における潜伏因子を確実に発見できるInfoNCEの一般化であるAnInfoNCEを紹介する。
CIFAR10 と ImageNet では,AnInfoNCE がダウンストリーム精度を犠牲にすることなく,以前に崩壊した情報の回復を増大させることを示す。
論文 参考訳(メタデータ) (2024-06-28T16:08:26Z) - Zero-Shot Generalization during Instruction Tuning: Insights from Similarity and Granularity [84.12126298229866]
命令チューニング中のゼロショット一般化は非常に早い時期に行われることを示す。
また、「タスク」の制約を伴わずに、命令チューニング中に非常によく似た、きめ細かなトレーニングデータに遭遇することで、より一般化できることを示す。
インストラクションチューニング中のゼロショット一般化は、インスタンスレベルでのトレーニングとテストデータ間の類似性に基づく一般化の形式であることを示す。
論文 参考訳(メタデータ) (2024-06-17T16:40:21Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - Theoretical Guarantees of Learning Ensembling Strategies with
Applications to Time Series Forecasting [14.037314994161378]
クロスバリデード性能に基づく(有限あるいは有限次元の)積み重ね一般化の族から最高の積み重ね一般化を選択すると、オラクルの最高値よりも「はるかに悪い」結果が得られないことを示す。
理論的解析から着想を得て,確率的予測の文脈において,階層化された一般化の特定のファミリーを提案する。
論文 参考訳(メタデータ) (2023-05-25T07:01:02Z) - Adversarial Robustness with Semi-Infinite Constrained Learning [177.42714838799924]
入力に対する深い学習は、安全クリティカルなドメインでの使用に関して深刻な疑問を提起している。
本稿では,この問題を緩和するために,Langevin Monte Carlo のハイブリッドトレーニング手法を提案する。
当社のアプローチは、最先端のパフォーマンスと堅牢性の間のトレードオフを軽減することができることを示す。
論文 参考訳(メタデータ) (2021-10-29T13:30:42Z) - Learning Domain Invariant Representations in Goal-conditioned Block MDPs [25.445394992810925]
目的条件付き政策を新しい環境に一般化する理論的枠組みを提案する。
本フレームワークでは,ドメインの一般化を促進する実践的な手法PA-SkewFitを開発する。
論文 参考訳(メタデータ) (2021-10-27T08:10:45Z) - CARL: A Benchmark for Contextual and Adaptive Reinforcement Learning [45.52724876199729]
本稿では、文脈RL問題に拡張されたよく知られたRL環境の集合であるCARLについて述べる。
政策学習から状態の表現学習と文脈を分離することで、より一般化が促進されるという最初の証拠を提供する。
論文 参考訳(メタデータ) (2021-10-05T15:04:01Z) - Which Mutual-Information Representation Learning Objectives are
Sufficient for Control? [80.2534918595143]
相互情報は、データの表現を学習するために魅力的な形式を提供する。
本稿では,最適政策の学習と表現のための状態表現の十分性について定式化する。
意外なことに、これらの2つの目的は、MDPの構造に関する軽度で一般的な仮定を前提に、不十分な表現をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-06-14T10:12:34Z) - In Search of Robust Measures of Generalization [79.75709926309703]
我々は、一般化誤差、最適化誤差、過大なリスクのバウンダリを開発する。
経験的に評価すると、これらの境界の大部分は数値的に空白である。
我々は、分散ロバストネスの枠組みの中で、一般化対策を評価するべきであると論じる。
論文 参考訳(メタデータ) (2020-10-22T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。