論文の概要: Optimizing $\alpha\mu$
- arxiv url: http://arxiv.org/abs/2101.12639v1
- Date: Fri, 29 Jan 2021 15:20:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-01 16:24:26.163513
- Title: Optimizing $\alpha\mu$
- Title(参考訳): 最適化 $\alpha\mu$
- Authors: Tristan Cazenave and Swann Legras and V\'eronique Ventos
- Abstract要約: $alphamu$は、Perfect Information Monte Carlo searchのデフォルトである戦略融合と非局所性の2つを修復する検索アルゴリズムである。
本稿では、Bridgeのゲームに$alphamu$を最適化し、無駄な計算を避ける。
- 参考スコア(独自算出の注目度): 7.715389335184684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: $\alpha\mu$ is a search algorithm which repairs two defaults of Perfect
Information Monte Carlo search: strategy fusion and non locality. In this paper
we optimize $\alpha\mu$ for the game of Bridge, avoiding useless computations.
The proposed optimizations are general and apply to other imperfect information
turn-based games. We define multiple optimizations involving Pareto fronts, and
show that these optimizations speed up the search. Some of these optimizations
are cuts that stop the search at a node, while others keep track of which
possible worlds have become redundant, avoiding unnecessary, costly
evaluations. We also measure the benefits of parallelizing the double dummy
searches at the leaves of the $\alpha\mu$ search tree.
- Abstract(参考訳): $\alpha\mu$は、Perfect Information Monte Carlo Searchのデフォルトである戦略融合と非局所性の2つを修復する検索アルゴリズムである。
本稿では,ブリッジゲームに$\alpha\mu$を最適化し,無駄な計算を回避した。
提案した最適化は汎用的で、他の不完全な情報ターンベースゲームに適用できる。
パレートフロントを含む複数の最適化を定義し、これらの最適化が検索を高速化することを示す。
これらの最適化のいくつかは、ノードの検索を停止するカットであり、他の最適化は、不要でコストのかかる評価を避けるために、可能世界の冗長化を追跡する。
また、$\alpha\mu$ search treeの葉の二重ダミー検索の並列化の利点も測定する。
関連論文リスト
- Optimize Planning Heuristics to Rank, not to Estimate Cost-to-Goal [0.9217021281095907]
計画のための模倣学習では、関数のパラメータは一連の解決された問題インスタンスに対して最適化される。
次に、フォワード探索アルゴリズムの与えられた変種に合わせたランキングに基づいて、損失関数の族を提案する。
様々な問題の集合に関する実験的な比較は、導出理論を絶対的に支持する。
論文 参考訳(メタデータ) (2023-10-30T11:39:49Z) - An Oblivious Stochastic Composite Optimization Algorithm for Eigenvalue
Optimization Problems [76.2042837251496]
相補的な合成条件に基づく2つの難解なミラー降下アルゴリズムを導入する。
注目すべきは、どちらのアルゴリズムも、目的関数のリプシッツ定数や滑らかさに関する事前の知識なしで機能する。
本稿では,大規模半確定プログラム上での手法の効率性とロバスト性を示す。
論文 参考訳(メタデータ) (2023-06-30T08:34:29Z) - Improved Rate of First Order Algorithms for Entropic Optimal Transport [2.1485350418225244]
本稿では,エントロピー正規化最適輸送を解くための1次アルゴリズムの最先端性を改善する。
そこで本研究では,差分低減による初期2次元ミラー降下アルゴリズムを提案する。
我々のアルゴリズムは、OTを解くために$widetildeO(n2/epsilon)$の速度を持つ加速された原始双対アルゴリズムを開発するためにより多くの研究を刺激するかもしれない。
論文 参考訳(メタデータ) (2023-01-23T19:13:25Z) - Efficient Non-Parametric Optimizer Search for Diverse Tasks [93.64739408827604]
興味のあるタスクを直接検索できる,スケーラブルで汎用的なフレームワークを初めて提示する。
基礎となる数学表現の自然木構造に着想を得て、空間を超木に再配置する。
我々は,モンテカルロ法を木探索に適用し,レジェクションサンプリングと等価形状検出を備える。
論文 参考訳(メタデータ) (2022-09-27T17:51:31Z) - Bayesian Optimistic Optimisation with Exponentially Decaying Regret [58.02542541410322]
現在の実用的なBOアルゴリズムは、$mathcalO(fraclogNsqrtN)$から$mathcalO(e-sqrtN)$まで、$N$は評価の数である。
本稿では,boと木に基づく楽観的楽観化の概念を絡み合うことにより,無音環境における後悔を改善できる可能性について検討する。
次数$mathcal O(N-sqrt)で指数的再帰を達成できる最初の実践的手法であるBOOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-10T13:07:44Z) - Bayesian Algorithm Execution: Estimating Computable Properties of
Black-box Functions Using Mutual Information [78.78486761923855]
多くの現実世界では、T関数の評価の予算を考えると、高価なブラックボックス関数 f の性質を推測したい。
本稿では,アルゴリズムの出力に対して相互情報を最大化するクエリを逐次選択する手法InfoBAXを提案する。
これらの問題に対してInfoBAXは、元のアルゴリズムで要求されるより500倍少ないクエリをfに使用する。
論文 参考訳(メタデータ) (2021-04-19T17:22:11Z) - Mind Mappings: Enabling Efficient Algorithm-Accelerator Mapping Space
Search [7.596028906226877]
本稿では,新しいマインドベースの検索空間を提案する。
微分可能な近似を非滑らかな$optimal 写像空間に導出する。
微分可能な近似により、高バウンド効率なアルゴリズムを比較してマインドベースの検索スキームを見つけることができます。
論文 参考訳(メタデータ) (2021-03-02T06:11:58Z) - Follow the Perturbed Leader: Optimism and Fast Parallel Algorithms for
Smooth Minimax Games [33.9383996530254]
オンライン学習の問題点とそのミニマックスゲームへの応用について考察する。
オンライン学習の問題に対して、Follow Perturbed Leaderは、最も優れたレスポンスを計算する、広く摂動されたオラクル設定である。
論文 参考訳(メタデータ) (2020-06-13T02:55:41Z) - Private Stochastic Convex Optimization: Optimal Rates in Linear Time [74.47681868973598]
本研究では,凸損失関数の分布から得られた個体群損失を最小化する問題について検討する。
Bassilyらによる最近の研究は、$n$のサンプルを与えられた過剰な人口損失の最適境界を確立している。
本稿では,余剰損失に対する最適境界を達成するとともに,$O(minn, n2/d)$グラデーション計算を用いて凸最適化アルゴリズムを導出する2つの新しい手法について述べる。
論文 参考訳(メタデータ) (2020-05-10T19:52:03Z) - Optimistic Policy Optimization with Bandit Feedback [70.75568142146493]
我々は,事前の報奨を後悔する$tilde O(sqrtS2 A H4 K)を定め,楽観的な信頼領域ポリシー最適化(TRPO)アルゴリズムを提案する。
我々の知る限り、この2つの結果は、未知の遷移と帯域幅フィードバックを持つポリシー最適化アルゴリズムにおいて得られた最初のサブ線形後悔境界である。
論文 参考訳(メタデータ) (2020-02-19T15:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。