論文の概要: A Bandit Approach with Evolutionary Operators for Model Selection
- arxiv url: http://arxiv.org/abs/2402.05144v1
- Date: Wed, 7 Feb 2024 08:01:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 18:13:06.579024
- Title: A Bandit Approach with Evolutionary Operators for Model Selection
- Title(参考訳): モデル選択のための進化的演算子を用いたバンドアプローチ
- Authors: Margaux Br\'eg\`ere (LPSM (UMR_8001), EDF R&D), Julie Keisler
(CRIStAL, EDF R&D)
- Abstract要約: 本稿では,無限武装バンディット問題としてモデル選択を定式化する。
報酬は、その部分訓練後の選択されたモデルの精度である。
進化的アルゴリズムから演算子を組み込んだMutant-UCBアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 1.024113475677323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper formulates model selection as an infinite-armed bandit problem.
The models are arms, and picking an arm corresponds to a partial training of
the model (resource allocation). The reward is the accuracy of the selected
model after its partial training. In this best arm identification problem,
regret is the gap between the expected accuracy of the optimal model and that
of the model finally chosen. We first consider a straightforward generalization
of UCB-E to the stochastic infinite-armed bandit problem and show that, under
basic assumptions, the expected regret order is $T^{-\alpha}$ for some $\alpha
\in (0,1/5)$ and $T$ the number of resources to allocate. From this vanilla
algorithm, we introduce the algorithm Mutant-UCB that incorporates operators
from evolutionary algorithms. Tests carried out on three open source image
classification data sets attest to the relevance of this novel combining
approach, which outperforms the state-of-the-art for a fixed budget.
- Abstract(参考訳): 本稿では,無限武装バンディット問題としてモデル選択を定式化する。
モデルはアームであり、アームの選択はモデルの部分的なトレーニング(リソース割り当て)に対応する。
報酬は、部分訓練後の選択されたモデルの精度である。
この最高の腕識別問題において、後悔は、最適モデルの予測精度と最終的に選択されたモデルの精度とのギャップである。
まず、UCB-Eの確率的無限武装バンディット問題への直接的な一般化を考察し、基本的な仮定では、期待される後悔順序は、ある$\alpha \in (0,1/5)$と$T$に対して$T^{-\alpha}$であることを示す。
このバニラアルゴリズムから,進化的アルゴリズムの演算子を組み込んだアルゴリズムミュータントucbを提案する。
オープンソースの3つの画像分類データセットで実施したテストは、この新しい組み合わせアプローチが、固定予算で最先端技術を上回ることを証明している。
関連論文リスト
- Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - Anytime Model Selection in Linear Bandits [61.97047189786905]
ALEXPは,その後悔に対するM$への依存を指数関数的に改善した。
提案手法は,オンライン学習と高次元統計学の新たな関連性を確立するために,ラッソの時間的一様解析を利用する。
論文 参考訳(メタデータ) (2023-07-24T15:44:30Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Universal and data-adaptive algorithms for model selection in linear
contextual bandits [52.47796554359261]
モデル選択の最も単純な非自明な例を考える: 単純な多重武装バンディット問題と線形文脈バンディット問題とを区別する。
データ適応的な方法で探索する新しいアルゴリズムを導入し、$mathcalO(dalpha T1- alpha)$という形式の保証を提供する。
我々のアプローチは、いくつかの仮定の下で、ネストされた線形文脈包帯のモデル選択に拡張する。
論文 参考訳(メタデータ) (2021-11-08T18:05:35Z) - Model Selection for Generic Contextual Bandits [20.207989166682832]
適応文脈帯域(tt Family ACB)と呼ばれる改良型アルゴリズムを提案する。
我々は、このアルゴリズムが適応的であること、すなわち、リットレートが任意の証明可能な文脈帯域幅アルゴリズムと整合していることを証明する。
また,真のモデルクラスを知らないにもかかわらず,ETCスタイルのアルゴリズムでも同様の後悔境界が得られることを示す。
論文 参考訳(メタデータ) (2021-07-07T19:35:31Z) - Random Effect Bandits [22.322646330965476]
我々は,古典的なオンライン学習問題であるマルチアームバンディットの後悔について研究する。
実験の結果,ReUCBは様々なシナリオにおいてトンプソンサンプリングより優れていることがわかった。
論文 参考訳(メタデータ) (2021-06-23T07:15:31Z) - Towards Costless Model Selection in Contextual Bandits: A Bias-Variance
Perspective [7.318831153179727]
文脈的包帯設定における累積的後悔最小化のための同様の保証の実現可能性について検討した。
提案アルゴリズムは, 新たな不特定性テストに基づいており, モデル選択による報酬推定の利点を実証する。
論文 参考訳(メタデータ) (2021-06-11T16:08:03Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。