Fugu-MT 論文翻訳(概要): A Bandit Approach with Evolutionary Operators for Model Selection

論文の概要: A Bandit Approach with Evolutionary Operators for Model Selection

arxiv url: http://arxiv.org/abs/2402.05144v1
Date: Wed, 7 Feb 2024 08:01:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-09 18:13:06.579024
Title: A Bandit Approach with Evolutionary Operators for Model Selection
Title（参考訳）: モデル選択のための進化的演算子を用いたバンドアプローチ
Authors: Margaux Br\'eg\`ere (LPSM (UMR_8001), EDF R&D), Julie Keisler (CRIStAL, EDF R&D)
Abstract要約: 本稿では,無限武装バンディット問題としてモデル選択を定式化する。報酬は、その部分訓練後の選択されたモデルの精度である。進化的アルゴリズムから演算子を組み込んだMutant-UCBアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 1.024113475677323
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper formulates model selection as an infinite-armed bandit problem. The models are arms, and picking an arm corresponds to a partial training of the model (resource allocation). The reward is the accuracy of the selected model after its partial training. In this best arm identification problem, regret is the gap between the expected accuracy of the optimal model and that of the model finally chosen. We first consider a straightforward generalization of UCB-E to the stochastic infinite-armed bandit problem and show that, under basic assumptions, the expected regret order is $T^{-\alpha}$ for some $\alpha \in (0,1/5)$ and $T$ the number of resources to allocate. From this vanilla algorithm, we introduce the algorithm Mutant-UCB that incorporates operators from evolutionary algorithms. Tests carried out on three open source image classification data sets attest to the relevance of this novel combining approach, which outperforms the state-of-the-art for a fixed budget.
Abstract（参考訳）: 本稿では,無限武装バンディット問題としてモデル選択を定式化する。モデルはアームであり、アームの選択はモデルの部分的なトレーニング(リソース割り当て)に対応する。報酬は、部分訓練後の選択されたモデルの精度である。この最高の腕識別問題において、後悔は、最適モデルの予測精度と最終的に選択されたモデルの精度とのギャップである。まず、UCB-Eの確率的無限武装バンディット問題への直接的な一般化を考察し、基本的な仮定では、期待される後悔順序は、ある$\alpha \in (0,1/5)$と$T$に対して$T^{-\alpha}$であることを示す。このバニラアルゴリズムから,進化的アルゴリズムの演算子を組み込んだアルゴリズムミュータントucbを提案する。オープンソースの3つの画像分類データセットで実施したテストは、この新しい組み合わせアプローチが、固定予算で最先端技術を上回ることを証明している。

関連論文リスト

Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文参考訳（メタデータ） (2023-08-29T18:18:21Z)
Anytime Model Selection in Linear Bandits [61.97047189786905]
ALEXPは,その後悔に対するM$への依存を指数関数的に改善した。提案手法は,オンライン学習と高次元統計学の新たな関連性を確立するために,ラッソの時間的一様解析を利用する。
論文参考訳（メタデータ） (2023-07-24T15:44:30Z)
Best Arm Identification for Stochastic Rising Bandits [84.55453174601826]
SRB(Rising Bandits)は、選択される度に選択肢の期待される報酬が増加する、シーケンシャルな意思決定の問題をモデル化する。本稿では,SRBの固定予算ベストアーム識別(BAI)問題に焦点をあてる。 R-UCBE と R-SR の2つのアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-02-15T08:01:37Z)
Stochastic Rising Bandits [40.32303434592863]
本研究は、腕が単調に非減少している、安静時および安静時バンディットの特定の症例について検討する。この特性により、ペイオフの規則性を利用して、厳密な後悔の限界を提供する、特別に構築されたアルゴリズムを設計することができる。我々は,本アルゴリズムを実世界のデータセットに対するオンラインモデル選択問題や,複数の合成されたタスクに対する非定常MABの最先端手法と経験的に比較した。
論文参考訳（メタデータ） (2022-12-07T17:30:45Z)
Understanding the stochastic dynamics of sequential decision-making processes: A path-integral analysis of multi-armed bandits [7.05949591248206]
マルチアームバンディットモデル(MAB)は、不確実な環境で意思決定を研究する最も一般的なモデルの一つである。本稿では,MABモデルの解析に統計物理学の手法を用いる。
論文参考訳（メタデータ） (2022-08-11T09:32:03Z)
Best Arm Identification under Additive Transfer Bandits [49.69203462561861]
提案手法は, 未知であるにもかかわらず, ソースとターゲットMABインスタンスの間には, 付加的な関係があることが知られている。本稿では,LUCBスタイルのアルゴリズムを理論的に解析し,高い確率で$epsilon$-optimal target armを同定する。
論文参考訳（メタデータ） (2021-12-08T02:20:18Z)
Universal and data-adaptive algorithms for model selection in linear contextual bandits [52.47796554359261]
モデル選択の最も単純な非自明な例を考える: 単純な多重武装バンディット問題と線形文脈バンディット問題とを区別する。データ適応的な方法で探索する新しいアルゴリズムを導入し、$mathcalO(dalpha T1- alpha)$という形式の保証を提供する。我々のアプローチは、いくつかの仮定の下で、ネストされた線形文脈包帯のモデル選択に拡張する。
論文参考訳（メタデータ） (2021-11-08T18:05:35Z)
Near Instance Optimal Model Selection for Pure Exploration Linear Bandits [20.67688737534517]
純探索線形帯域設定におけるモデル選択問題について検討する。私たちのゴールは、最小の仮説クラスのインスタンス依存の複雑性尺度に自動的に適応することです。提案アルゴリズムは,実験設計に基づく新しい最適化問題を定義する。
論文参考訳（メタデータ） (2021-09-10T22:56:58Z)
Model Selection for Generic Contextual Bandits [20.207989166682832]
適応文脈帯域(tt Family ACB)と呼ばれる改良型アルゴリズムを提案する。我々は、このアルゴリズムが適応的であること、すなわち、リットレートが任意の証明可能な文脈帯域幅アルゴリズムと整合していることを証明する。また,真のモデルクラスを知らないにもかかわらず,ETCスタイルのアルゴリズムでも同様の後悔境界が得られることを示す。
論文参考訳（メタデータ） (2021-07-07T19:35:31Z)
Towards Costless Model Selection in Contextual Bandits: A Bias-Variance Perspective [7.318831153179727]
文脈的包帯設定における累積的後悔最小化のための同様の保証の実現可能性について検討した。提案アルゴリズムは, 新たな不特定性テストに基づいており, モデル選択による報酬推定の利点を実証する。
論文参考訳（メタデータ） (2021-06-11T16:08:03Z)
Online Model Selection: a Rested Bandit Formulation [49.69377391589057]
静止したバンディット設定における最善のアーム識別問題を紹介し,解析する。我々は、この問題の後悔の新しい概念を定義し、ゲームの終わりに最小の期待損失を持つ腕を常に再生するポリシーと比較します。最近のバンディット文献における既知のモデル選択の試みとは異なり、アルゴリズムは問題の特定の構造を利用して、予想される損失関数の未知のパラメータを学習する。
論文参考訳（メタデータ） (2020-12-07T08:23:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。