論文の概要: Limited depth bandit-based strategy for Monte Carlo planning in
continuous action spaces
- arxiv url: http://arxiv.org/abs/2106.15594v1
- Date: Tue, 29 Jun 2021 17:30:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 17:26:42.240882
- Title: Limited depth bandit-based strategy for Monte Carlo planning in
continuous action spaces
- Title(参考訳): 連続作用空間におけるモンテカルロ計画のための有限深度帯域ベース戦略
- Authors: Ricardo Quinteiro, Francisco S. Melo, Pedro A. Santos
- Abstract要約: 本稿では,階層最適化(HOO)アルゴリズムの限界深度変種であるLD-HOOを提案する。
提案アルゴリズムは,より高速で,よりメモリ効率のよいオリジナルのHOOと同様の累積的後悔を示す。
次に,最適制御問題に対するLD-HOOに基づくモンテカルロ木探索アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 4.1208902102156015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the problem of optimal control using search trees. We
start by considering multi-armed bandit problems with continuous action spaces
and propose LD-HOO, a limited depth variant of the hierarchical optimistic
optimization (HOO) algorithm. We provide a regret analysis for LD-HOO and show
that, asymptotically, our algorithm exhibits the same cumulative regret as the
original HOO while being faster and more memory efficient. We then propose a
Monte Carlo tree search algorithm based on LD-HOO for optimal control problems
and illustrate the resulting approach's application in several optimal control
problems.
- Abstract(参考訳): 本稿では,探索木を用いた最適制御の問題に対処する。
まず,連続行動空間を用いたマルチアームバンディット問題を考察し,階層的楽観最適化(HOO)アルゴリズムの限定的な深度変種であるLD-HOOを提案する。
我々はLD-HOOの後悔解析を行い、漸近的に、我々のアルゴリズムは、より高速でよりメモリ効率の良いオリジナルのHOOと同じ累積後悔を示すことを示す。
次に,最適制御問題に対するLD-HOOに基づくモンテカルロ木探索アルゴリズムを提案する。
関連論文リスト
- LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。
GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文 参考訳(メタデータ) (2024-06-29T05:14:04Z) - Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits [55.938644481736446]
Indexed Minimum Empirical Divergence (IMED)は、マルチアームバンディット問題に対する非常に効果的なアプローチである。
UCBベースのアルゴリズムとトンプソンサンプリングを実証的に上回ることが観察されている。
我々は、LinIMEDアルゴリズムのファミリーと呼ぶIMEDアルゴリズムの新しい線形バージョンを提案する。
論文 参考訳(メタデータ) (2024-05-24T04:11:58Z) - An Optimal Algorithm for the Real-Valued Combinatorial Pure Exploration
of Multi-Armed Bandit [65.268245109828]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。
既存のR-CPE-MABの手法は、いわゆるトランスダクティブ線形帯域の特殊な場合と見なすことができる。
本稿では,差分探索アルゴリズム (CombGapE) を提案する。
論文 参考訳(メタデータ) (2023-06-15T15:37:31Z) - Decision Diagram-Based Branch-and-Bound with Caching for Dominance and
Suboptimality Detection [9.175779296469194]
本稿では動的プログラミングモデルの構造を利用して探索を高速化する新しい要素を提案する。
鍵となる考え方は、検索中にキャッシュされた拡張しきい値に問い合わせることによって、同じ動的プログラミング状態に対応するノードの繰り返し拡張を防止することである。
このキャッシング機構によって引き起こされるプルーニングは、アルゴリズムによって拡張されたノード数を著しく削減できることを示す実験である。
論文 参考訳(メタデータ) (2022-11-22T10:18:33Z) - Monte Carlo Tree Descent for Black-Box Optimization [10.698553177585973]
我々は、より高速な最適化のためにサンプルベース降下をさらに統合する方法を研究する。
我々は,モンテカルロ探索木の拡張手法を,頂点における新しい降下法を用いて設計する。
提案アルゴリズムは,多くの挑戦的ベンチマーク問題において,最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-11-01T22:45:10Z) - CITS: Coherent Ising Tree Search Algorithm Towards Solving Combinatorial
Optimization Problems [0.0]
本稿では、マルコフ連鎖からSAに基づく奥行き制限木への探索空間の拡大による探索アルゴリズムを提案する。
それぞれのイテレーションにおいて、このアルゴリズムは、先を見据えて、木に沿って探索することで、実現可能な探索空間内で最高の準最適解を選択する」。
以上の結果から,IsingのNP最適化問題に対する高次木探索戦略は,より少ないエポックの範囲で解決可能であることが示唆された。
論文 参考訳(メタデータ) (2022-03-09T10:07:26Z) - Lower Bounds and Optimal Algorithms for Smooth and Strongly Convex
Decentralized Optimization Over Time-Varying Networks [79.16773494166644]
通信ネットワークのノード間を分散的に保存するスムーズで強い凸関数の和を最小化するタスクについて検討する。
我々は、これらの下位境界を達成するための2つの最適アルゴリズムを設計する。
我々は,既存の最先端手法と実験的な比較を行うことにより,これらのアルゴリズムの理論的効率を裏付ける。
論文 参考訳(メタデータ) (2021-06-08T15:54:44Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Bayesian Optimized Monte Carlo Planning [34.8909579244631]
モンテカルロ木探索は、行動空間からサンプリングし、ポリシー探索木を構築することにより、拡張性の向上を試みる。
ベイズ最適化に基づく効率的な行動サンプリング法を提案する。
提案手法はBayesian Optimized Monte Carlo Planningと呼ばれる新しいオンライン木探索アルゴリズムに実装されている。
論文 参考訳(メタデータ) (2020-10-07T18:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。