論文の概要: Scalable Exploration via Ensemble++
- arxiv url: http://arxiv.org/abs/2407.13195v3
- Date: Thu, 28 Nov 2024 17:25:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:17:48.795292
- Title: Scalable Exploration via Ensemble++
- Title(参考訳): Ensemble++によるスケーラブルな探索
- Authors: Yingru Li, Jiawei Xu, Baoxiang Wang, Zhi-Quan Luo,
- Abstract要約: トンプソンサンプリングの実用的な近似であるアンサンブルサンプリングは広く採用されているが、しばしば性能劣化に悩まされている。
アーキテクチャとアルゴリズムの革新を通じてこれらの課題に対処する新しい方法であるEnsemble++を紹介します。
本研究では,Ensemble++が線形コンテキスト帯域における正確なトンプソンサンプリングの残差と一致し,拡張性のあるステップ毎の計算複雑性を維持していることを示す。
- 参考スコア(独自算出の注目度): 26.53967194965416
- License:
- Abstract: Scalable exploration in high-dimensional, complex environments is a significant challenge in sequential decision making, especially when utilizing neural networks. Ensemble sampling, a practical approximation of Thompson sampling, is widely adopted but often suffers performance degradation due to {ensemble coupling} in shared layer architectures, leading to reduced diversity and ineffective exploration. In this paper, we introduce Ensemble++, a novel method that addresses these challenges through architectural and algorithmic innovations. To prevent ensemble coupling, Ensemble++ decouples mean and uncertainty estimation by separating the base network and ensemble components, employs a symmetrized loss function and the stop-gradient operator. To further enhance exploration, it generates richer hypothesis spaces through random linear combinations of ensemble components using continuous index sampling. Theoretically, we prove that Ensemble++ matches the regret bounds of exact Thompson sampling in linear contextual bandits while maintaining a scalable per-step computational complexity of $\tilde{O}( \log T)$. This provides the first rigorous analysis demonstrating that ensemble sampling can be an scalable and effective approximation to Thompson Sampling, closing a key theoretical gap in exploration efficiency. Empirically, we demonstrate Ensemble++'s effectiveness in both regret minimization and computational efficiency across a range of nonlinear bandit environments, including a language-based contextual bandits where the agents employ GPT backbones. Our results highlight the capability of Ensemble++ for real-time adaptation in complex environments where computational and data collection budgets are constrained. \url{https://github.com/szrlee/Ensemble_Plus_Plus}
- Abstract(参考訳): 高次元の複雑な環境におけるスケーラブルな探索は、特にニューラルネットワークを使用する場合、シーケンシャルな意思決定において重要な課題である。
トンプソンサンプリングの実践的な近似であるアンサンブルサンプリングは広く採用されているが、共有層アーキテクチャにおける‘アンサンブルカップリング’による性能劣化に悩まされ、多様性の低下と非効率な探索に繋がる。
本稿では,アーキテクチャとアルゴリズムの革新を通じて,これらの課題に対処する新しい手法であるEnsemble++を紹介する。
アンサンブル結合を防止するため、アンサンブルネットワークとアンサンブルコンポーネントを分離し、平均と不確実性を分離し、シンメトリズドロス関数と停止勾配演算子を用いる。
探索をさらに強化するため、連続インデックスサンプリングを用いてアンサンブル成分のランダムな線形結合を通じてよりリッチな仮説空間を生成する。
理論的には、Ensemble++は線形文脈の包帯における正確なトンプソンサンプリングの残酷な境界と一致し、拡張性のあるステップ毎の計算複雑性は$\tilde{O}( \log T)$を維持している。
これは、アンサンブルサンプリングがトンプソンサンプリングに対するスケーラブルで効果的な近似であることを示す最初の厳密な分析を提供し、探索効率の重要な理論的ギャップを閉じる。
実証的に、エージェントがGPTバックボーンを使用する言語ベースのコンテキスト的帯域幅を含む、さまざまな非線形帯域幅環境における、後悔の最小化と計算効率の両面でのEnsemble++の有効性を実証する。
計算とデータ収集の予算が制約される複雑な環境において,Ensemble++のリアルタイム適応性を強調した。
\url{https://github.com/szrlee/Ensemble_Plus_Plus}
関連論文リスト
- Scalable and Effective Negative Sample Generation for Hyperedge Prediction [55.9298019975967]
ハイパーエッジ予測は、Webベースのアプリケーションにおける複雑なマルチエンタリティ相互作用を理解するために不可欠である。
従来の手法では、正と負のインスタンスの不均衡により、高品質な負のサンプルを生成するのが困難であることが多い。
本稿では,これらの課題に対処するために拡散モデルを利用するハイパーエッジ予測(SEHP)フレームワークのスケーラブルで効果的な負のサンプル生成について述べる。
論文 参考訳(メタデータ) (2024-11-19T09:16:25Z) - Uncertainty of Joint Neural Contextual Bandit [0.41436032949434404]
本稿では,1つのモデルにおける全ての推奨項目を補完する,結合型ニューラルネットワークのコンテキスト的包帯解について述べる。
パラメータ $alpha$ のチューニングは通常、その性質のため、実際は複雑である。
我々は, 統合神経コンテキストバンドモデルの不確実性$sigma$に関する理論的解析と実験的知見の両方を提供する。
論文 参考訳(メタデータ) (2024-06-04T17:38:24Z) - DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - Q-Star Meets Scalable Posterior Sampling: Bridging Theory and Practice via HyperAgent [23.669599662214686]
HyperAgentは、RLにおける探索のためのハイパーモデルフレームワークに基づく強化学習(RL)アルゴリズムである。
我々はHyperAgentが大規模深部RLベンチマークで堅牢なパフォーマンスを提供することを示した。
問題の大きさで最適にスケールし、Atariスイートで顕著な効率向上を示すエピソードでディープシーのハードな探索問題を解決することができる。
論文 参考訳(メタデータ) (2024-02-05T07:07:30Z) - Online Continuous Hyperparameter Optimization for Generalized Linear Contextual Bandits [55.03293214439741]
文脈的包帯では、エージェントは過去の経験に基づいた時間依存アクションセットから順次アクションを行う。
そこで本稿では,文脈的包帯のためのオンライン連続型ハイパーパラメータチューニングフレームワークを提案する。
理論上はサブ線形の後悔を達成でき、合成データと実データの両方において既存のすべての手法よりも一貫して優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2023-02-18T23:31:20Z) - Two-sided Competing Matching Recommendation Markets With Quota and Complementary Preferences Constraints [13.069703665055084]
本稿では,両面のオンラインマッチング市場において,補完的な嗜好とクォータ制約を伴う問題に対処する新しい推奨アルゴリズムを提案する。
混合クォータと相補的な選好制約の存在は、マッチングプロセスの不安定性を引き起こす。
バンドレート学習の枠組みとしてこの問題を定式化し,マルチエージェント多型トンプソンサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-24T18:54:29Z) - Byzantine-Robust Online and Offline Distributed Reinforcement Learning [60.970950468309056]
本稿では,複数のエージェントが環境を探索し,その経験を中央サーバを通じて伝達する分散強化学習環境について考察する。
エージェントの$alpha$-fractionは敵対的であり、任意の偽情報を報告することができる。
我々は、これらの対立エージェントの存在下で、マルコフ決定プロセスの根底にある準最適政策を特定することを模索する。
論文 参考訳(メタデータ) (2022-06-01T00:44:53Z) - Inter-Domain Fusion for Enhanced Intrusion Detection in Power Systems:
An Evidence Theoretic and Meta-Heuristic Approach [0.0]
ICSネットワークにおけるIDSによる不正な警告は、経済的および運用上の重大な損害をもたらす可能性がある。
本研究は,CPS電力系統における誤警報の事前分布を伴わずに不確実性に対処し,誤警報を低減する手法を提案する。
論文 参考訳(メタデータ) (2021-11-20T00:05:39Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Cost-Efficient Online Hyperparameter Optimization [94.60924644778558]
実験の単一実行でヒトのエキスパートレベルのパフォーマンスに達するオンラインHPOアルゴリズムを提案します。
提案するオンラインhpoアルゴリズムは,実験の1回で人間のエキスパートレベルのパフォーマンスに到達できるが,通常のトレーニングに比べて計算オーバーヘッドは少ない。
論文 参考訳(メタデータ) (2021-01-17T04:55:30Z) - Decentralized Multi-Agent Linear Bandits with Safety Constraints [31.67685495996986]
本研究では,N$エージェントのネットワークが協調して線形帯域最適化問題を解く分散線形帯域幅について検討する。
ネットワーク全体の累積的後悔を最小限に抑える完全分散アルゴリズム DLUCB を提案する。
私たちのアイデアは、より困難な、安全な盗賊の設定にもかかわらず、自然界に広まっています。
論文 参考訳(メタデータ) (2020-12-01T07:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。