論文の概要: How the level sampling process impacts zero-shot generalisation in deep
reinforcement learning
- arxiv url: http://arxiv.org/abs/2310.03494v1
- Date: Thu, 5 Oct 2023 12:08:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 16:25:32.898324
- Title: How the level sampling process impacts zero-shot generalisation in deep
reinforcement learning
- Title(参考訳): 深層強化学習におけるレベルサンプリングプロセスがゼロショット一般化に与える影響
- Authors: Samuel Garcin, James Doran, Shangmin Guo, Christopher G. Lucas and
Stefano V. Albrecht
- Abstract要約: 深い強化学習を通じて訓練された自律エージェントが広く採用されるのを防ぐ重要な制限は、新しい環境に一般化する能力の制限である。
本研究では,RLエージェントのゼロショット一般化能力に,個別環境インスタンスの非一様サンプリング戦略がどう影響するかを検討する。
- 参考スコア(独自算出の注目度): 12.79149059358717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key limitation preventing the wider adoption of autonomous agents trained
via deep reinforcement learning (RL) is their limited ability to generalise to
new environments, even when these share similar characteristics with
environments encountered during training. In this work, we investigate how a
non-uniform sampling strategy of individual environment instances, or levels,
affects the zero-shot generalisation (ZSG) ability of RL agents, considering
two failure modes: overfitting and over-generalisation. As a first step, we
measure the mutual information (MI) between the agent's internal representation
and the set of training levels, which we find to be well-correlated to instance
overfitting. In contrast to uniform sampling, adaptive sampling strategies
prioritising levels based on their value loss are more effective at maintaining
lower MI, which provides a novel theoretical justification for this class of
techniques. We then turn our attention to unsupervised environment design (UED)
methods, which adaptively generate new training levels and minimise MI more
effectively than methods sampling from a fixed set. However, we find UED
methods significantly shift the training distribution, resulting in
over-generalisation and worse ZSG performance over the distribution of
interest. To prevent both instance overfitting and over-generalisation, we
introduce self-supervised environment design (SSED). SSED generates levels
using a variational autoencoder, effectively reducing MI while minimising the
shift with the distribution of interest, and leads to statistically significant
improvements in ZSG over fixed-set level sampling strategies and UED methods.
- Abstract(参考訳): 深層強化学習(rl)によって訓練された自律エージェントが広く採用されることを妨げる鍵となる制限は、訓練中に遭遇する環境と同じような特性を持つ場合でも、新しい環境に一般化する能力の制限である。
本研究では,個々の環境インスタンスの非一様サンプリング戦略,すなわちレベルが,オーバーフィッティングとオーバージェネライゼーションという2つの障害モードを考慮して,rlエージェントのゼロショット一般化(zsg)能力にどのように影響するかを検討する。
最初のステップとして、エージェントの内部表現とトレーニングレベルのセットの間の相互情報(mi)を測定します。
均一サンプリングとは対照的に、値損失に基づく適応サンプリング戦略は、より低いMIを維持する上で有効であり、この手法の新たな理論的正当化を提供する。
そこで我々は、新しいトレーニングレベルを適応的に生成し、MIを固定セットからサンプリングする手法よりも効果的に最小化する、教師なし環境設計(UED)手法に注意を向ける。
しかし、UED法はトレーニング分布を著しく変化させ、その結果、関心の分布よりも過度に一般化され、ZSG性能が悪化することがわかった。
インスタンスオーバーフィッティングとオーバージェネレーションの両方を防止するため,自己管理型環境設計(SSED)を導入する。
SSEDは、変分オートエンコーダを用いてレベルを生成し、MIを効果的に低減し、関心の分布に伴うシフトを最小限にし、固定セットレベルサンプリング戦略やUED法よりも統計的に顕著なZSGの改善をもたらす。
関連論文リスト
- Hybrid Classification-Regression Adaptive Loss for Dense Object Detection [19.180514552400883]
HCRALと呼ばれるハイブリッド分類回帰適応損失を提案する。
本稿では,タスク間の監視,タスクの不整合に対処するためのResidual of Classification and IoU (RCI)モジュールと,各タスク内の難読化サンプルに焦点をあてる Conditioning Factor (CF) を紹介する。
また, 適応型トレーニングサンプル選択(EATSS)という新たな戦略を導入し, 分類と回帰の不整合を示すサンプルを新たに提供した。
論文 参考訳(メタデータ) (2024-08-30T10:31:39Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - DRED: Zero-Shot Transfer in Reinforcement Learning via Data-Regularised Environment Design [11.922951794283168]
本研究では,RLエージェントのゼロショット一般化能力(ZSG)に,個々の環境インスタンスやレベルのサンプリングがどう影響するかを検討する。
基本層を共有する深いアクター・クリティカルなアーキテクチャでは, エージェントの内部表現と, 生成したトレーニングデータのトレーニングレベルとの相互情報を最小限に抑える。
既存のUED手法は,ZSG性能の低いトレーニング分布を著しくシフトできることがわかった。
オーバーフィッティングと分散シフトの両面を防止するため,データ正規化環境設計(D)を導入する。
論文 参考訳(メタデータ) (2024-02-05T19:47:45Z) - Unilaterally Aggregated Contrastive Learning with Hierarchical
Augmentation for Anomaly Detection [64.50126371767476]
階層的拡張(UniCon-HA)を用いた一方的集約型コントラスト学習を提案する。
我々は、教師付きおよび教師なしの対照的な損失を通じて、インレーヤの濃度と仮想外れ値の分散を明示的に奨励する。
本手法は,ラベルなし1クラス,ラベルなしマルチクラス,ラベル付きマルチクラスを含む3つのAD設定で評価される。
論文 参考訳(メタデータ) (2023-08-20T04:01:50Z) - Attacks on Robust Distributed Learning Schemes via Sensitivity Curve
Maximization [37.464005524259356]
曲線の感度(SCM)に基づく新たな攻撃法を提案する。
我々は, 従来の頑健なアグリゲーションスキームを, 小さいが効果的な摂動を注入することで破壊できることを実証した。
論文 参考訳(メタデータ) (2023-04-27T08:41:57Z) - Generalized Inter-class Loss for Gait Recognition [11.15855312510806]
歩行認識は、遠隔操作で非協調的に行うことのできるユニークな生体計測技術である。
それまでの歩行作業は、クラス間の分散を制限することの重要性を無視しながら、クラス内の分散を最小化することに焦点を当てていた。
サンプルレベルの特徴分布とクラスレベルの特徴分布の両方からクラス間の分散を解消する一般化されたクラス間損失を提案する。
論文 参考訳(メタデータ) (2022-10-13T06:44:53Z) - Improving Generalization in Federated Learning by Seeking Flat Minima [23.937135834522145]
フェデレートされた設定で訓練されたモデルは、しばしば劣化したパフォーマンスに悩まされ、一般化に失敗する。
本研究では,損失の幾何レンズとヘッセン固有スペクトルを用いて,そのような挙動を考察する。
損失面のシャープさと一般化ギャップを接続する先行研究により,サーバ側のシャープネス・アウェア・最小化 (SAM) や適応バージョン (ASAM) をローカルにトレーニングすることで,一般化を大幅に改善できることが示されている。
論文 参考訳(メタデータ) (2022-03-22T16:01:04Z) - Revisiting Deep Semi-supervised Learning: An Empirical Distribution
Alignment Framework and Its Generalization Bound [97.93945601881407]
経験分布アライメントによる半教師あり学習(SLEDA)と呼ばれる深層半教師あり学習フレームワークを提案する。
ラベル付きデータに対するトレーニング誤差を最小化することにより,半教師付き学習の一般化誤差を効果的にバウンドできることを示す。
新しい枠組みと理論的境界に基づいて、Augmented Distribution Alignment Network(ADA-Net)と呼ばれるシンプルで効果的な深層半教師付き学習手法を開発した。
論文 参考訳(メタデータ) (2022-03-13T11:59:52Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Hybrid Dynamic Contrast and Probability Distillation for Unsupervised
Person Re-Id [109.1730454118532]
非監督的人物再識別(Re-Id)は、リードワールドビデオ監視システムにおける実践的応用により注目されている。
本稿では,ハイブリッド動的クラスタコントラストと確率蒸留アルゴリズムを提案する。
教師なしRe-Id問題を局所-言語的ダイナミックコントラスト学習と自己教師付き確率蒸留の枠組みに統合する。
論文 参考訳(メタデータ) (2021-09-29T02:56:45Z) - Adaptive Adversarial Logits Pairing [65.51670200266913]
逆行訓練ソリューションであるAdversarial Logits Pairing (ALP)は、脆弱なものに比べて、高い貢献度を少なくする傾向にある。
これらの観測により,適応型対数対数対数対数対数対数法 (AALP) を設計し,ALPのトレーニングプロセスとトレーニングターゲットを変更する。
AALPは適応的な機能最適化モジュールと Guided Dropout から構成されており、より少ない高コントリビューション機能を体系的に追求する。
論文 参考訳(メタデータ) (2020-05-25T03:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。