論文の概要: A Bandit Approach with Evolutionary Operators for Model Selection
- arxiv url: http://arxiv.org/abs/2402.05144v1
- Date: Wed, 7 Feb 2024 08:01:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 18:13:06.579024
- Title: A Bandit Approach with Evolutionary Operators for Model Selection
- Title(参考訳): モデル選択のための進化的演算子を用いたバンドアプローチ
- Authors: Margaux Br\'eg\`ere (LPSM (UMR_8001), EDF R&D), Julie Keisler
(CRIStAL, EDF R&D)
- Abstract要約: 本稿では,無限武装バンディット問題としてモデル選択を定式化する。
報酬は、その部分訓練後の選択されたモデルの精度である。
進化的アルゴリズムから演算子を組み込んだMutant-UCBアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 1.024113475677323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper formulates model selection as an infinite-armed bandit problem.
The models are arms, and picking an arm corresponds to a partial training of
the model (resource allocation). The reward is the accuracy of the selected
model after its partial training. In this best arm identification problem,
regret is the gap between the expected accuracy of the optimal model and that
of the model finally chosen. We first consider a straightforward generalization
of UCB-E to the stochastic infinite-armed bandit problem and show that, under
basic assumptions, the expected regret order is $T^{-\alpha}$ for some $\alpha
\in (0,1/5)$ and $T$ the number of resources to allocate. From this vanilla
algorithm, we introduce the algorithm Mutant-UCB that incorporates operators
from evolutionary algorithms. Tests carried out on three open source image
classification data sets attest to the relevance of this novel combining
approach, which outperforms the state-of-the-art for a fixed budget.
- Abstract(参考訳): 本稿では,無限武装バンディット問題としてモデル選択を定式化する。
モデルはアームであり、アームの選択はモデルの部分的なトレーニング(リソース割り当て)に対応する。
報酬は、部分訓練後の選択されたモデルの精度である。
この最高の腕識別問題において、後悔は、最適モデルの予測精度と最終的に選択されたモデルの精度とのギャップである。
まず、UCB-Eの確率的無限武装バンディット問題への直接的な一般化を考察し、基本的な仮定では、期待される後悔順序は、ある$\alpha \in (0,1/5)$と$T$に対して$T^{-\alpha}$であることを示す。
このバニラアルゴリズムから,進化的アルゴリズムの演算子を組み込んだアルゴリズムミュータントucbを提案する。
オープンソースの3つの画像分類データセットで実施したテストは、この新しい組み合わせアプローチが、固定予算で最先端技術を上回ることを証明している。
関連論文リスト
- Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Anytime Model Selection in Linear Bandits [61.97047189786905]
ALEXPは,その後悔に対するM$への依存を指数関数的に改善した。
提案手法は,オンライン学習と高次元統計学の新たな関連性を確立するために,ラッソの時間的一様解析を利用する。
論文 参考訳(メタデータ) (2023-07-24T15:44:30Z) - Best Arm Identification for Stochastic Rising Bandits [84.55453174601826]
SRB(Rising Bandits)は、選択される度に選択肢の期待される報酬が増加する、シーケンシャルな意思決定の問題をモデル化する。
本稿では,SRBの固定予算ベストアーム識別(BAI)問題に焦点をあてる。
R-UCBE と R-SR の2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-15T08:01:37Z) - Stochastic Rising Bandits [40.32303434592863]
本研究は、腕が単調に非減少している、安静時および安静時バンディットの特定の症例について検討する。
この特性により、ペイオフの規則性を利用して、厳密な後悔の限界を提供する、特別に構築されたアルゴリズムを設計することができる。
我々は,本アルゴリズムを実世界のデータセットに対するオンラインモデル選択問題や,複数の合成されたタスクに対する非定常MABの最先端手法と経験的に比較した。
論文 参考訳(メタデータ) (2022-12-07T17:30:45Z) - Understanding the stochastic dynamics of sequential decision-making
processes: A path-integral analysis of multi-armed bandits [7.05949591248206]
マルチアームバンディットモデル(MAB)は、不確実な環境で意思決定を研究する最も一般的なモデルの一つである。
本稿では,MABモデルの解析に統計物理学の手法を用いる。
論文 参考訳(メタデータ) (2022-08-11T09:32:03Z) - Best Arm Identification under Additive Transfer Bandits [49.69203462561861]
提案手法は, 未知であるにもかかわらず, ソースとターゲットMABインスタンスの間には, 付加的な関係があることが知られている。
本稿では,LUCBスタイルのアルゴリズムを理論的に解析し,高い確率で$epsilon$-optimal target armを同定する。
論文 参考訳(メタデータ) (2021-12-08T02:20:18Z) - Universal and data-adaptive algorithms for model selection in linear
contextual bandits [52.47796554359261]
モデル選択の最も単純な非自明な例を考える: 単純な多重武装バンディット問題と線形文脈バンディット問題とを区別する。
データ適応的な方法で探索する新しいアルゴリズムを導入し、$mathcalO(dalpha T1- alpha)$という形式の保証を提供する。
我々のアプローチは、いくつかの仮定の下で、ネストされた線形文脈包帯のモデル選択に拡張する。
論文 参考訳(メタデータ) (2021-11-08T18:05:35Z) - Near Instance Optimal Model Selection for Pure Exploration Linear
Bandits [20.67688737534517]
純探索線形帯域設定におけるモデル選択問題について検討する。
私たちのゴールは、最小の仮説クラスのインスタンス依存の複雑性尺度に自動的に適応することです。
提案アルゴリズムは,実験設計に基づく新しい最適化問題を定義する。
論文 参考訳(メタデータ) (2021-09-10T22:56:58Z) - Towards Costless Model Selection in Contextual Bandits: A Bias-Variance
Perspective [7.318831153179727]
文脈的包帯設定における累積的後悔最小化のための同様の保証の実現可能性について検討した。
提案アルゴリズムは, 新たな不特定性テストに基づいており, モデル選択による報酬推定の利点を実証する。
論文 参考訳(メタデータ) (2021-06-11T16:08:03Z) - Online Model Selection: a Rested Bandit Formulation [49.69377391589057]
静止したバンディット設定における最善のアーム識別問題を紹介し,解析する。
我々は、この問題の後悔の新しい概念を定義し、ゲームの終わりに最小の期待損失を持つ腕を常に再生するポリシーと比較します。
最近のバンディット文献における既知のモデル選択の試みとは異なり、アルゴリズムは問題の特定の構造を利用して、予想される損失関数の未知のパラメータを学習する。
論文 参考訳(メタデータ) (2020-12-07T08:23:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。