論文の概要: Reversible Upper Confidence Bound Algorithm to Generate Diverse
Optimized Candidates
- arxiv url: http://arxiv.org/abs/2112.14893v1
- Date: Thu, 30 Dec 2021 02:30:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-03 15:06:08.335553
- Title: Reversible Upper Confidence Bound Algorithm to Generate Diverse
Optimized Candidates
- Title(参考訳): 多様な最適化候補を生成する可逆上信頼境界アルゴリズム
- Authors: Bin Chong, Yingguang Yang, Zi-Le Wang, Hang Xing, and Zhirong Liu
- Abstract要約: 強化学習における多腕バンディット問題に対する可逆的高信頼境界(rUCB)アルゴリズムを提案する。
rUCBは,高い精度と低性能の損失を達成しつつ,クエリ時間を大幅に短縮することを示した。
- 参考スコア(独自算出の注目度): 0.7340017786387767
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Most algorithms for the multi-armed bandit problem in reinforcement learning
aimed to maximize the expected reward, which are thus useful in searching the
optimized candidate with the highest reward (function value) for diverse
applications (e.g., AlphaGo). However, in some typical application scenaios
such as drug discovery, the aim is to search a diverse set of candidates with
high reward. Here we propose a reversible upper confidence bound (rUCB)
algorithm for such a purpose, and demonstrate its application in virtual
screening upon intrinsically disordered proteins (IDPs). It is shown that rUCB
greatly reduces the query times while achieving both high accuracy and low
performance loss.The rUCB may have potential application in multipoint
optimization and other reinforcement-learning cases.
- Abstract(参考訳): 強化学習におけるマルチアームバンディット問題のアルゴリズムの多くは、期待される報酬を最大化することを目的としており、多様なアプリケーション(例えばalphago)に対して最も高い報酬(関数値)を持つ最適化候補を探索するのに有用である。
しかしながら、薬物発見のような典型的な応用例では、高い報酬で多様な候補を探索することを目的としている。
本稿では,そのような目的のために可逆上信頼結合(rucb)アルゴリズムを提案し,本態性障害タンパク質(idp)の仮想スクリーニングへの応用を示す。
rUCBは、高い精度と低性能の損失を達成しつつ、クエリ時間を大幅に短縮し、マルチポイント最適化や他の強化学習ケースに潜在的に応用できる可能性がある。
関連論文リスト
- Quality-Diversity Algorithms Can Provably Be Helpful for Optimization [24.694984679399315]
QD(Quality-Diversity)アルゴリズムは、ハイパフォーマンスだが多様なソリューションのセットを見つけることを目的としている。
本稿では,厳密な実行時間解析によってQDアルゴリズムの最適化能力に光を当てようとしている。
論文 参考訳(メタデータ) (2024-01-19T07:40:24Z) - Don't Be So Sure! Boosting ASR Decoding via Confidence Relaxation [7.056222499095849]
ビームサーチは 予測分布を用いて 最大限の確率で 書き起こしを求める
最近提案された自己監督学習(SSL)ベースのASRモデルは、極めて確実な予測をもたらす傾向があることを示す。
細調整されたASRモデルの性能を向上させる復号法を提案する。
論文 参考訳(メタデータ) (2022-12-27T06:42:26Z) - Algorithmic Foundations of Empirical X-risk Minimization [51.58884973792057]
この原稿は、機械学習とAIの新しい最適化フレームワーク、bf empirical X-risk baseline (EXM)を紹介している。
Xリスク(X-risk)は、構成測度または目的の族を表すために導入された用語である。
論文 参考訳(メタデータ) (2022-06-01T12:22:56Z) - Large-scale Optimization of Partial AUC in a Range of False Positive
Rates [51.12047280149546]
ROC曲線 (AUC) の下の領域は、機械学習において最も広く使われている分類モデルのパフォーマンス指標の1つである。
近年の封筒平滑化技術に基づく効率的な近似勾配降下法を開発した。
提案アルゴリズムは,効率のよい解法を欠くランク付けされた範囲損失の和を最小化するためにも利用できる。
論文 参考訳(メタデータ) (2022-03-03T03:46:18Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Exploration in two-stage recommender systems [79.50534282841618]
2段階のレコメンデータシステムは、スケーラビリティと保守性のために業界で広く採用されている。
このセットアップの鍵となる課題は、各ステージの最適性能が最適なグローバルパフォーマンスを暗示していないことである。
そこで本研究では,ランクとノミネーター間の探索戦略を同期させる手法を提案する。
論文 参考訳(メタデータ) (2020-09-01T16:52:51Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Fast and stable MAP-Elites in noisy domains using deep grids [1.827510863075184]
Deep-Grid MAP-ElitesはMAP-Elitesアルゴリズムの変種である。
この単純なアプローチは、適合性最適化の観点から競争性能を達成しつつ、動作記述子のノイズに対する耐性が著しく高いことを示す。
論文 参考訳(メタデータ) (2020-06-25T08:47:23Z) - BOP-Elites, a Bayesian Optimisation algorithm for Quality-Diversity
search [0.0]
本稿では,エリートアルゴリズム(BOP-Elites)のベイズ最適化を提案する。
機能領域のユーザ定義領域を‘ニッチ’として考えることで、ニッチ毎に最適なソリューションを見つけることが私たちのタスクになります。
得られたアルゴリズムは、特徴空間におけるニッチに属する探索空間の部分を特定し、ニッチごとに最適な解を見つけるのに非常に効果的である。
論文 参考訳(メタデータ) (2020-05-08T23:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。