論文の概要: Bayesian Optimization -- Multi-Armed Bandit Problem
- arxiv url: http://arxiv.org/abs/2012.07885v1
- Date: Mon, 14 Dec 2020 19:08:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 19:12:42.975891
- Title: Bayesian Optimization -- Multi-Armed Bandit Problem
- Title(参考訳): ベイズ最適化-多元帯域問題
- Authors: Abhilash Nandy, Chandan Kumar, Deepak Mewada, Soumya Sharma
- Abstract要約: ベイズ最適化を論じた論文において,取得機能とポートフォリオ戦略の種類に関する小文献調査を行った。
また、実験を複製し、調査結果を報告し、論文の結果と比較します。
- 参考スコア(独自算出の注目度): 1.454605112111925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this report, we survey Bayesian Optimization methods focussed on the
Multi-Armed Bandit Problem. We take the help of the paper "Portfolio Allocation
for Bayesian Optimization". We report a small literature survey on the
acquisition functions and the types of portfolio strategies used in papers
discussing Bayesian Optimization. We also replicate the experiments and report
our findings and compare them to the results in the paper. Code link:
https://colab.research.google.com/drive/1GZ14klEDoe3dcBeZKo5l8qqrKf_GmBDn?usp=sharing#scrollTo=XgIBau3O45_V.
- Abstract(参考訳): 本稿では,マルチアーメッド帯域問題に着目したベイズ最適化手法について検討する。
ベイズ最適化のためのPortfolio Allocation」という論文の助けを借りる。
ベイズ最適化を論じた論文において,取得機能とポートフォリオ戦略の種類に関する小文献調査を行った。
また、実験を再現し、調査結果を報告し、論文の結果と比較した。
コードリンク:https://colab.research.google.com/drive/1GZ14klEDoe3dcBeZKo5l8qrKf_GmBDn?usp=sharing#scrollTo=XgIBau3O45_V
関連論文リスト
- Non-Myopic Multifidelity Bayesian Optimization [0.0]
本稿では,この最適化の今後のステップから長期報酬を把握するための,非筋電多忠実ベイズフレームワークを提案する。
提案アルゴリズムは,一般的なベンチマーク最適化問題において,標準的なマルチ忠実ベイズフレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-07-13T16:25:35Z) - Robust Bayesian Recourse [13.526999070658231]
アルゴリズムのリコースは、好ましくない機械学習の決定を覆すために、情報的なフィードバックを推奨することを目的としている。
本稿では,後続確率オッズ比を最小化するモデル非依存リコースであるベイズ的リコースを紹介する。
我々は、機械学習モデルパラメータの将来の変更に対処する目的で、min-maxのロバストな競合を提示する。
論文 参考訳(メタデータ) (2022-06-22T04:17:17Z) - Preference Exploration for Efficient Bayesian Optimization with Multiple
Outcomes [17.300690315775572]
意思決定者が好むベクトル値結果を生成する実験の最適化を検討する。
これらの選好は、閉じた形では知られていないが、DMに結果ベクトルのペアよりも好みを表現するように求めることで推定できるユーティリティ関数によって符号化される。
我々は,インタラクティブなリアルタイム嗜好学習とDMを交互に行う新しいフレームワークを開発した。
論文 参考訳(メタデータ) (2022-03-21T23:02:50Z) - Optimizer Amalgamation [124.33523126363728]
私たちは、Amalgamationという新しい問題の研究を動機付けています。"Teacher"アマルガメーションのプールを、より強力な問題固有のパフォーマンスを持つ単一の"学生"にどのように組み合わせるべきなのでしょうか?
まず、勾配降下による解析のプールをアマルガメートする3つの異なるメカニズムを定義する。
また, プロセスの分散を低減するため, 目標を摂動させることでプロセスの安定化を図る。
論文 参考訳(メタデータ) (2022-03-12T16:07:57Z) - Bayesian Algorithm Execution: Estimating Computable Properties of
Black-box Functions Using Mutual Information [78.78486761923855]
多くの現実世界では、T関数の評価の予算を考えると、高価なブラックボックス関数 f の性質を推測したい。
本稿では,アルゴリズムの出力に対して相互情報を最大化するクエリを逐次選択する手法InfoBAXを提案する。
これらの問題に対してInfoBAXは、元のアルゴリズムで要求されるより500倍少ないクエリをfに使用する。
論文 参考訳(メタデータ) (2021-04-19T17:22:11Z) - Batch Bayesian Optimization on Permutations using Acquisition Weighted
Kernels [86.11176756341114]
決定点プロセスに基づく新しい効率的なバッチ取得方法であるLAWを紹介します。
本研究では,理論特性の知見を得るための後悔分析法を提案する。
二次代入などの置換を含むいくつかの標準問題に対する手法を評価する。
論文 参考訳(メタデータ) (2021-02-26T10:15:57Z) - Mercer Features for Efficient Combinatorial Bayesian Optimization [32.856318660282255]
ベイズ最適化(Bayesian optimization、BO)は、高価な関数評価でブラックボックス最適化問題を解決するための効率的なフレームワークである。
本稿では,科学や工学の応用において自然に発生する空間(シーケンスやグラフなど)のbo問題の設定について述べる。
重要な課題は、統計モデルの複雑さと検索のトラクタビリティのバランスをとり、評価のための構造を選択することです。
論文 参考訳(メタデータ) (2020-12-14T17:58:39Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - Statistical Efficiency of Thompson Sampling for Combinatorial
Semi-Bandits [56.31950477139053]
半帯域フィードバック(CMAB)を用いたマルチアームバンディットの検討
我々は Combinatorial Thompson Smpling Policy (CTS) の変種を解析する。
この最終結果は,Y Combinatorial Bandit Policy (ESCB) の効率的なサンプリングに代わるものだ。
論文 参考訳(メタデータ) (2020-06-11T17:12:11Z) - Robust Policy Search for Robot Navigation with Stochastic Meta-Policies [5.7871177330714145]
本研究では,ベイズ最適化の主成分を生かして,ポリシー探索アルゴリズムの様々な問題に対して堅牢性を提供する。
いくつかの手法を組み合わせて、それらの相互作用が部品の和よりもどのように機能するかを示す。
提案アルゴリズムを,ロボットアームによるオブジェクトのプッシュやローバーによる経路探索など,いくつかの最適化ベンチマークやロボットタスクにおいて,以前の結果と比較した。
論文 参考訳(メタデータ) (2020-03-02T16:30:59Z) - Optimistic Policy Optimization with Bandit Feedback [70.75568142146493]
我々は,事前の報奨を後悔する$tilde O(sqrtS2 A H4 K)を定め,楽観的な信頼領域ポリシー最適化(TRPO)アルゴリズムを提案する。
我々の知る限り、この2つの結果は、未知の遷移と帯域幅フィードバックを持つポリシー最適化アルゴリズムにおいて得られた最初のサブ線形後悔境界である。
論文 参考訳(メタデータ) (2020-02-19T15:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。