論文の概要: The Curse of Diversity in Ensemble-Based Exploration
- arxiv url: http://arxiv.org/abs/2405.04342v1
- Date: Tue, 7 May 2024 14:14:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 13:50:50.393889
- Title: The Curse of Diversity in Ensemble-Based Exploration
- Title(参考訳): アンサンブルに基づく探索における多様性の曲線
- Authors: Zhixuan Lin, Pierluca D'Oro, Evgenii Nikishin, Aaron Courville,
- Abstract要約: データ共有エージェントの多様なアンサンブルの訓練は、個々のアンサンブルメンバーのパフォーマンスを著しく損なう可能性がある。
私たちはこの現象を多様性の呪いと呼んでいる。
多様性の呪いに対処する表現学習の可能性を示す。
- 参考スコア(独自算出の注目度): 7.209197316045156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We uncover a surprising phenomenon in deep reinforcement learning: training a diverse ensemble of data-sharing agents -- a well-established exploration strategy -- can significantly impair the performance of the individual ensemble members when compared to standard single-agent training. Through careful analysis, we attribute the degradation in performance to the low proportion of self-generated data in the shared training data for each ensemble member, as well as the inefficiency of the individual ensemble members to learn from such highly off-policy data. We thus name this phenomenon the curse of diversity. We find that several intuitive solutions -- such as a larger replay buffer or a smaller ensemble size -- either fail to consistently mitigate the performance loss or undermine the advantages of ensembling. Finally, we demonstrate the potential of representation learning to counteract the curse of diversity with a novel method named Cross-Ensemble Representation Learning (CERL) in both discrete and continuous control domains. Our work offers valuable insights into an unexpected pitfall in ensemble-based exploration and raises important caveats for future applications of similar approaches.
- Abstract(参考訳): 多様なデータ共有エージェントの訓練 -- 確立された探索戦略 -- は、通常のシングルエージェントトレーニングと比較して、個々のアンサンブルメンバーのパフォーマンスを著しく損なう可能性がある。
注意深い分析により、各アンサンブルメンバーの共有トレーニングデータにおける自己生成データの割合が低くなり、また、個々のアンサンブルメンバーの非効率性が、このような高度に非政治的なデータから学習できることを特徴としている。
そこで我々はこの現象を多様性の呪いと名づけた。
より大きなリプレイバッファやより小さなアンサンブルサイズなど、いくつかの直感的なソリューションは、パフォーマンス損失を継続的に軽減するか、アンサンブルの利点を損なうことに失敗しています。
最後に,CERL(Cross-Ensemble Representation Learning)という新しい手法を用いて,多様性の呪いに対処する表現学習の可能性を示す。
我々の研究は、アンサンブルに基づく探索における予期せぬ落とし穴についての貴重な洞察を与え、同様のアプローチの将来の応用に重要な注意を喚起する。
関連論文リスト
- Sharpness-diversity tradeoff: improving flat ensembles with SharpBalance [60.68771286221115]
深層アンサンブルにおけるシャープネスと多様性の相互作用を示す。
私たちは、アンサンブル内でシャープネスと多様性のバランスをとるトレーニングアプローチであるSharpBalanceを紹介します。
実験により、SharpBalanceはシャープネスとダイバーシティのトレードオフを効果的に改善するだけでなく、アンサンブル性能を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-07-17T20:31:26Z) - Relaxed Contrastive Learning for Federated Learning [48.96253206661268]
本稿では,フェデレート学習におけるデータ不均一性の課題に対処する,新しいコントラスト学習フレームワークを提案する。
当社のフレームワークは,既存のフェデレート学習アプローチを,標準ベンチマークにおいて大きなマージンで上回ります。
論文 参考訳(メタデータ) (2024-01-10T04:55:24Z) - Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [95.49699178874683]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - Multiply Robust Federated Estimation of Targeted Average Treatment
Effects [0.0]
多地点データを用いて,対象個体群に対する有効な因果推論を導出する手法を提案する。
提案手法では,移動学習を組み込んでアンサンブル重みを推定し,ソースサイトからの情報を組み合わせる。
論文 参考訳(メタデータ) (2023-09-22T03:15:08Z) - Self-aware and Cross-sample Prototypical Learning for Semi-supervised
Medical Image Segmentation [10.18427897663732]
整合性学習は半教師付き医療画像セグメンテーションにおいて重要な役割を担っている。
これにより、注釈なしデータの豊富さを生かしながら、限られた注釈付きデータの有効利用が可能になる。
一貫性学習における予測の多様性を高めるために,自己認識型・クロスサンプル型学習法(SCP-Net)を提案する。
論文 参考訳(メタデータ) (2023-05-25T16:22:04Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Joint Training of Deep Ensembles Fails Due to Learner Collusion [61.557412796012535]
機械学習モデルのアンサンブルは、単一のモデルよりもパフォーマンスを改善する強力な方法として確立されている。
伝統的に、アンサンブルアルゴリズムは、ジョイントパフォーマンスの最適化を目標として、ベースラーナーを独立または逐次訓練する。
アンサンブルの損失を最小化することは、実際にはほとんど適用されないことを示す。
論文 参考訳(メタデータ) (2023-01-26T18:58:07Z) - DICE: Diversity in Deep Ensembles via Conditional Redundancy Adversarial
Estimation [109.11580756757611]
メンバー間の多様性のおかげで、ディープアンサンブルは単一のネットワークよりもパフォーマンスが良い。
最近のアプローチでは、多様性を高めるための予測を規則化していますが、個々のメンバーのパフォーマンスも大幅に減少します。
DICEと呼ばれる新しいトレーニング基準を導入し、特徴間の素早い相関を減らして多様性を高める。
論文 参考訳(メタデータ) (2021-01-14T10:53:26Z) - On the Sample Complexity of Adversarial Multi-Source PAC Learning [46.24794665486056]
単一ソース設定では、トレーニングデータの一定割合を破損させるパワーを持つ相手がPAC学習を防止できる。
意外なことに、マルチソース設定では、敵が任意にデータソースの固定された部分を破壊することができるため、同じことが当てはまらない。
また, 他者とのデータ共有を協調的に行うことで, 悪意のある参加者でも有益であることが示唆された。
論文 参考訳(メタデータ) (2020-02-24T17:19:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。