論文の概要: Dynamic Exploration-Exploitation Trade-Off in Active Learning Regression
with Bayesian Hierarchical Modeling
- arxiv url: http://arxiv.org/abs/2304.07665v2
- Date: Sat, 30 Sep 2023 18:19:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 19:37:47.303974
- Title: Dynamic Exploration-Exploitation Trade-Off in Active Learning Regression
with Bayesian Hierarchical Modeling
- Title(参考訳): ベイジアン階層モデルを用いたアクティブラーニング回帰における動的探索・探索貿易
- Authors: Upala Junaida Islam and Kamran Paynabar and George Runger and Ashif
Sikandar Iquebal
- Abstract要約: 探査・探査を同時に検討する方法は、最適でないかもしれないトレードオフを制御するために、固定的またはアドホックな手段を同時に採用する。
我々は,BHEEMと呼ばれるベイズ的階層的アプローチを開発し,探査・探査のトレードオフを動的にバランスさせる。
- 参考スコア(独自算出の注目度): 4.132882666134921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active learning provides a framework to adaptively query the most informative
experiments towards learning an unknown black-box function. Various approaches
of active learning have been proposed in the literature, however, they either
focus on exploration or exploitation in the design space. Methods that do
consider exploration-exploitation simultaneously employ fixed or ad-hoc
measures to control the trade-off that may not be optimal. In this paper, we
develop a Bayesian hierarchical approach, referred as BHEEM, to dynamically
balance the exploration-exploitation trade-off as more data points are queried.
To sample from the posterior distribution of the trade-off parameter, We
subsequently formulate an approximate Bayesian computation approach based on
the linear dependence of queried data in the feature space. Simulated and
real-world examples show the proposed approach achieves at least 21% and 11%
average improvement when compared to pure exploration and exploitation
strategies respectively. More importantly, we note that by optimally balancing
the trade-off between exploration and exploitation, BHEEM performs better or at
least as well as either pure exploration or pure exploitation.
- Abstract(参考訳): アクティブラーニングは、未知のブラックボックス関数を学習するための最も有益な実験を適応的にクエリするフレームワークを提供する。
アクティブラーニングの様々なアプローチが文献で提案されているが、それらはデザイン分野における探索と搾取に焦点を当てている。
探索探索を同時に考慮する手法は、最適ではないかもしれないトレードオフを制御するために固定的あるいはアドホックな手段を用いる。
本稿では,BHEEMと呼ばれるベイズ的階層的手法を開発し,より多くのデータポイントがクエリされるにつれて,探索・探索のトレードオフを動的にバランスさせる。
トレードオフパラメータの後方分布から標本化するために,特徴空間における待ち行列データの線形依存性に基づいてベイズ近似計算手法を定式化する。
シミュレーションおよび実世界の例では、提案手法は、それぞれ純粋な探索とエクスプロイト戦略と比較して、少なくとも21%と11%の平均的な改善を達成している。
さらに重要なのは、探索とエクスプロイトのトレードオフを最適にバランスさせることで、BHEEMは純粋な探査と純粋なエクスプロイトの両方と同様に、より良く、少なくともパフォーマンスを向上できるということです。
関連論文リスト
- Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Efficient Reinforcement Learning via Decoupling Exploration and Utilization [6.305976803910899]
強化学習(Reinforcement Learning, RL)は、ゲーム、ロボティクス、自動運転車など、さまざまな分野やアプリケーションで大きな成功を収めている。
本研究の目的は,探索と利用を分離して効率よく学習するエージェントを訓練することであり,エージェントが最適解の難解を逃れられるようにすることである。
提案したOPARL(Optimistic and Pessimistic Actor Reinforcement Learning)アルゴリズムに実装した。
論文 参考訳(メタデータ) (2023-12-26T09:03:23Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - Mastering the exploration-exploitation trade-off in Bayesian
Optimization [0.2538209532048867]
取得関数は、探索とエクスプロイトの間のバランスを評価するための次のソリューションの選択を駆動する。
本稿では,爆発的選択と搾取的選択のトレードオフを適応的に習得する,新たな獲得機能を提案する。
論文 参考訳(メタデータ) (2023-05-15T13:19:03Z) - STEERING: Stein Information Directed Exploration for Model-Based
Reinforcement Learning [111.75423966239092]
遷移モデルの現在の推定値と未知の最適値との間の積分確率距離(IPM)の観点から探索インセンティブを提案する。
KSDに基づく新しいアルゴリズムを開発した。 textbfSTEin information dirtextbfEcted Explor for model-based textbfReinforcement Learntextbfing。
論文 参考訳(メタデータ) (2023-01-28T00:49:28Z) - Dynamic Bottleneck for Robust Self-Supervised Exploration [84.78836146128236]
本稿では,インフォメーション・ボトルネックの原理に基づく動的関連表現を実現する動的ボトルネック(DB)モデルを提案する。
さらに,DBモデルに基づくDB-bonusを提案する。
実験の結果,DBボーナスによる探索は,ノイズの多い環境での最先端の探査方法よりも優れていた。
論文 参考訳(メタデータ) (2021-10-20T19:17:05Z) - Localized active learning of Gaussian process state space models [63.97366815968177]
多くの共通制御アプリケーションにおいて、優れた性能を達成するためには、グローバルに正確なモデルを必要としない。
本稿では,状態-作用空間の有界部分集合上の正確なモデルを得ることを目的としたガウス過程状態空間モデルに対する能動的学習戦略を提案する。
モデル予測制御を用いることで、探索中に収集した情報を統合し、探索戦略を適応的に改善する。
論文 参考訳(メタデータ) (2020-05-04T05:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。