論文の概要: Dynamic Exploration-Exploitation Trade-Off in Active Learning Regression
with Bayesian Hierarchical Modeling
- arxiv url: http://arxiv.org/abs/2304.07665v1
- Date: Sun, 16 Apr 2023 01:40:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 17:56:24.933294
- Title: Dynamic Exploration-Exploitation Trade-Off in Active Learning Regression
with Bayesian Hierarchical Modeling
- Title(参考訳): ベイジアン階層モデルを用いたアクティブラーニング回帰における動的探索・探索貿易
- Authors: Upala Junaida Islam and Kamran Paynabar and George Runger and Ashif
Sikandar Iquebal
- Abstract要約: 我々は、より多くのデータポイントが問い合わせられるにつれて、探索と探索のトレードオフのバランスをとるためのベイズ的階層的アプローチを開発する。
提案手法は, 純探索法およびエクスプロイト法と比較して, 少なくとも6%と11%の平均的改善を実現している。
- 参考スコア(独自算出の注目度): 3.1998815025767025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active learning provides a framework to adaptively sample the most
informative experiments towards learning an unknown black-box function. Various
approaches of active learning have been proposed in the literature, however,
they either focus on exploration or exploitation in the design space. Methods
that do consider exploration-exploitation simultaneously employ fixed or ad-hoc
measures to control the trade-off that may not be optimal. In this paper, we
develop a Bayesian hierarchical approach to dynamically balance the
exploration-exploitation trade-off as more data points are queried. We
subsequently formulate an approximate Bayesian computation approach based on
the linear dependence of data samples in the feature space to sample from the
posterior distribution of the trade-off parameter obtained from the Bayesian
hierarchical model. Simulated and real-world examples show the proposed
approach achieves at least 6% and 11% average improvement when compared to pure
exploration and exploitation strategies respectively. More importantly, we note
that by optimally balancing the trade-off between exploration and exploitation,
our approach performs better or at least as well as either pure exploration or
pure exploitation.
- Abstract(参考訳): アクティブラーニングは、未知のブラックボックス関数を学ぶための最も有益な実験を適応的にサンプルするフレームワークを提供する。
アクティブラーニングの様々なアプローチが文献で提案されているが、それらはデザイン分野における探索と搾取に焦点を当てている。
探索探索を同時に考慮する手法は、最適ではないかもしれないトレードオフを制御するために固定的あるいはアドホックな手段を用いる。
本稿では,より多くのデータポイントが問い合わせられるにつれて,探索・探索トレードオフの動的バランスをとるためのベイズ階層的アプローチを開発する。
その後,特徴空間におけるデータサンプルの線形依存に基づく近似ベイズ計算法を定式化し,ベイズ階層モデルから得られたトレードオフパラメータの後方分布から標本を抽出する。
シミュレーションおよび実世界の例では、提案手法は、純粋な探索とエクスプロイト戦略と比較して、それぞれ6%と11%の平均的な改善を達成している。
さらに重要なことは、探索と搾取の間のトレードオフを最適にバランスさせることで、我々のアプローチは、純粋な探検でも純粋な搾取でも、より良く、または少なくともうまく機能する、ということです。
関連論文リスト
- Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - Mastering the exploration-exploitation trade-off in Bayesian
Optimization [0.2538209532048867]
取得関数は、探索とエクスプロイトの間のバランスを評価するための次のソリューションの選択を駆動する。
本稿では,爆発的選択と搾取的選択のトレードオフを適応的に習得する,新たな獲得機能を提案する。
論文 参考訳(メタデータ) (2023-05-15T13:19:03Z) - STEERING: Stein Information Directed Exploration for Model-Based
Reinforcement Learning [111.75423966239092]
遷移モデルの現在の推定値と未知の最適値との間の積分確率距離(IPM)の観点から探索インセンティブを提案する。
KSDに基づく新しいアルゴリズムを開発した。 textbfSTEin information dirtextbfEcted Explor for model-based textbfReinforcement Learntextbfing。
論文 参考訳(メタデータ) (2023-01-28T00:49:28Z) - Dynamic Bottleneck for Robust Self-Supervised Exploration [84.78836146128236]
本稿では,インフォメーション・ボトルネックの原理に基づく動的関連表現を実現する動的ボトルネック(DB)モデルを提案する。
さらに,DBモデルに基づくDB-bonusを提案する。
実験の結果,DBボーナスによる探索は,ノイズの多い環境での最先端の探査方法よりも優れていた。
論文 参考訳(メタデータ) (2021-10-20T19:17:05Z) - Localized active learning of Gaussian process state space models [63.97366815968177]
多くの共通制御アプリケーションにおいて、優れた性能を達成するためには、グローバルに正確なモデルを必要としない。
本稿では,状態-作用空間の有界部分集合上の正確なモデルを得ることを目的としたガウス過程状態空間モデルに対する能動的学習戦略を提案する。
モデル予測制御を用いることで、探索中に収集した情報を統合し、探索戦略を適応的に改善する。
論文 参考訳(メタデータ) (2020-05-04T05:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。