論文の概要: Materials Discovery using Max K-Armed Bandit
- arxiv url: http://arxiv.org/abs/2212.08225v1
- Date: Fri, 16 Dec 2022 01:27:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 15:05:01.032274
- Title: Materials Discovery using Max K-Armed Bandit
- Title(参考訳): Max K-Armed Bandit を用いた材料発見
- Authors: Nobuaki Kikkawa and Hiroshi Ohno
- Abstract要約: 最大K武装バンディット(MKB)問題は,従来のバンディットよりも優れた発見課題に適合する。
提案アルゴリズムをモンテカルロ木探索を用いた合成問題と分子設計実証に適用する。
- 参考スコア(独自算出の注目度): 2.7412662946127755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Search algorithms for the bandit problems are applicable in materials
discovery. However, the objectives of the conventional bandit problem are
different from those of materials discovery. The conventional bandit problem
aims to maximize the total rewards, whereas materials discovery aims to achieve
breakthroughs in material properties. The max K-armed bandit (MKB) problem,
which aims to acquire the single best reward, matches with the discovery tasks
better than the conventional bandit. Thus, here, we propose a search algorithm
for materials discovery based on the MKB problem using a pseudo-value of the
upper confidence bound of expected improvement of the best reward. This
approach is pseudo-guaranteed to be asymptotic oracles that do not depends on
the time horizon. In addition, compared with other MKB algorithms, the proposed
algorithm has only one hyperparameter, which is advantageous in materials
discovery. We applied the proposed algorithm to synthetic problems and
molecular-design demonstrations using a Monte Carlo tree search. According to
the results, the proposed algorithm stably outperformed other bandit algorithms
in the late stage of the search process when the optimal arm of the MKB could
not be determined based on its expectation reward.
- Abstract(参考訳): バンディット問題の探索アルゴリズムは、材料発見に適用できる。
しかし, 従来のバンディット問題の目的は, 材料発見と異なる。
従来のバンディット問題は全体の報酬を最大化することを目的としており、材料発見は材料特性のブレークスルーを達成することを目的としている。
max k-armed bandit (mkb) 問題は、最高の報酬を1つ獲得することを目的としており、従来のbanditよりも発見タスクに合致する。
そこで本研究では,MKB問題に基づく材料発見のための探索アルゴリズムを提案する。
このアプローチは、時間的地平線に依存しない漸近的なオラクルであると疑似保証される。
さらに、他のMKBアルゴリズムと比較して、提案アルゴリズムは1つのハイパーパラメータしか持たず、材料発見に有利である。
提案アルゴリズムをモンテカルロ木探索を用いた合成問題と分子設計実証に応用した。
その結果,提案アルゴリズムは,mkbの最適アームが期待値に基づいて決定できない場合,探索過程の後期において,他のバンディットアルゴリズムよりも安定して優れていた。
関連論文リスト
- Indexed Minimum Empirical Divergence-Based Algorithms for Linear Bandits [55.938644481736446]
Indexed Minimum Empirical Divergence (IMED)は、マルチアームバンディット問題に対する非常に効果的なアプローチである。
UCBベースのアルゴリズムとトンプソンサンプリングを実証的に上回ることが観察されている。
我々は、LinIMEDアルゴリズムのファミリーと呼ぶIMEDアルゴリズムの新しい線形バージョンを提案する。
論文 参考訳(メタデータ) (2024-05-24T04:11:58Z) - Forced Exploration in Bandit Problems [12.13966146283641]
マルチアームバンディット(MAB)は古典的なシーケンシャルな決定問題である。
本稿では,報酬分布に関する情報を使わずに実装可能なマルチアームバンディットアルゴリズムを設計することを目的とする。
論文 参考訳(メタデータ) (2023-12-12T14:00:29Z) - Fixed-Budget Real-Valued Combinatorial Pure Exploration of Multi-Armed
Bandit [65.268245109828]
このアルゴリズムは,アクションクラスのサイズが指数関数的に大きい場合でも,最良のアクションを識別できる最初のアルゴリズムである。
CSAアルゴリズムの誤差確率の上限は指数の対数係数までの下界と一致することを示す。
提案手法を従来手法と実験的に比較し,アルゴリズムの性能が向上したことを示す。
論文 参考訳(メタデータ) (2023-10-24T09:47:32Z) - HARRIS: Hybrid Ranking and Regression Forests for Algorithm Selection [75.84584400866254]
両アプローチの強みを両アプローチの弱さを緩和しつつ組み合わせ, 特殊林を利用した新しいアルゴリズムセレクタを提案する。
HARRISの決定は、ハイブリッドランキングと回帰損失関数に基づいて最適化された木を作成する森林モデルに基づいている。
論文 参考訳(メタデータ) (2022-10-31T14:06:11Z) - Itemset Utility Maximization with Correlation Measure [8.581840054840335]
高ユーティリティアイテムセットマイニング(HUIM)は、興味深いが隠された情報(例えば、利益とリスク)を見つけるために使用される。
本稿では,Coium(Coium)を用いたアイテムセット実用性最大化という新しいアルゴリズムを提案する。
2つの上界と4つのプルーニング戦略を用いて探索空間を効果的にプルークする。また、適用された上界を線形時間と空間で計算・保存するために、ユーティリティービンと呼ばれる簡潔なアレイ構造を用いる。
論文 参考訳(メタデータ) (2022-08-26T10:06:24Z) - Thompson Sampling for Unimodal Bandits [21.514495320038712]
本稿では, 半順序の腕に対して期待される報酬が一様であるアンフンモダル・バンディットに対するトンプソンサンプリングアルゴリズムを提案する。
ガウスの報酬に対して、我々のアルゴリズムの後悔は$mathcalO(log T)$であり、標準的なトンプソンサンプリングアルゴリズムよりもはるかに優れている。
論文 参考訳(メタデータ) (2021-06-15T14:40:34Z) - Upper Confidence Bounds for Combining Stochastic Bandits [52.10197476419621]
バンディットアルゴリズムを結合する簡単な手法を提案する。
私たちのアプローチは、個々のbanditアルゴリズムのそれぞれを、より高いレベルのn$-armed bandit問題のアームとして扱う"meta-ucb"手順に基づいています。
論文 参考訳(メタデータ) (2020-12-24T05:36:29Z) - Adaptive Algorithms for Multi-armed Bandit with Composite and Anonymous
Feedback [32.62857394584907]
複合および匿名フィードバックによるマルチアームバンディット(MAB)問題を研究する。
本稿では,逆の場合と非逆の場合の適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-13T12:25:41Z) - Corralling Stochastic Bandit Algorithms [54.10645564702416]
相関アルゴリズムの後悔は、最も報酬の高い腕を含む最高のアルゴリズムの後悔よりも悪くはないことを示す。
最高報酬と他の報酬の差は、最高報酬と他の報酬の差に依存することを示す。
論文 参考訳(メタデータ) (2020-06-16T15:33:12Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。