論文の概要: Online Preselection with Context Information under the Plackett-Luce
Model
- arxiv url: http://arxiv.org/abs/2002.04275v1
- Date: Tue, 11 Feb 2020 09:27:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 01:28:06.864431
- Title: Online Preselection with Context Information under the Plackett-Luce
Model
- Title(参考訳): Plackett-Luceモデルに基づく文脈情報を用いたオンライン事前選択
- Authors: Adil El Mesaoudi-Paul, Viktor Bengs, Eyke H\"ullermeier
- Abstract要約: 本稿では,コンテキスト型マルチアームバンディット問題の拡張について考察する。
一つの代替品(アーム)を選択する代わりに、学習者は代替品のサブセットの形で事前選択する。
本稿では,よく知られたUPBアルゴリズムにインスパイアされたCPPLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 10.286111512725334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider an extension of the contextual multi-armed bandit problem, in
which, instead of selecting a single alternative (arm), a learner is supposed
to make a preselection in the form of a subset of alternatives. More
specifically, in each iteration, the learner is presented a set of arms and a
context, both described in terms of feature vectors. The task of the learner is
to preselect $k$ of these arms, among which a final choice is made in a second
step. In our setup, we assume that each arm has a latent (context-dependent)
utility, and that feedback on a preselection is produced according to a
Plackett-Luce model. We propose the CPPL algorithm, which is inspired by the
well-known UCB algorithm, and evaluate this algorithm on synthetic and real
data. In particular, we consider an online algorithm selection scenario, which
served as a main motivation of our problem setting. Here, an instance (which
defines the context) from a certain problem class (such as SAT) can be solved
by different algorithms (the arms), but only $k$ of these algorithms can
actually be run.
- Abstract(参考訳): 本稿では,一つの代替品(アーム)を選択する代わりに,学習者が代替品のサブセットとして事前選択を行うことを前提とした,コンテキスト的マルチアームバンディット問題の拡張について考察する。
より具体的には、各イテレーションで学習者は、特徴ベクトルの観点で記述された、一連のアームとコンテキストが提示される。
学習者のタスクは、これらのアームの1ドルを事前に選択することであり、最終選択は2番目のステップで行われる。
我々の設定では、各アームには潜在(コンテキスト依存)ユーティリティがあり、プリセレクションに対するフィードバックはPlanet-Luceモデルに従って生成されると仮定する。
本稿では、よく知られたUPBアルゴリズムにインスパイアされたCPPLアルゴリズムを提案し、このアルゴリズムを合成データと実データに基づいて評価する。
特に,問題設定の主な動機となったオンラインアルゴリズム選択シナリオについて考察する。
ここでは、ある問題クラス(SATなど)のインスタンス(コンテキストを定義する)は異なるアルゴリズム(アーム)で解決できるが、実際に実行されるのはこれらのアルゴリズムのわずか$k$のみである。
関連論文リスト
- Contextual Bandits with Arm Request Costs and Delays [19.263086804406786]
本稿では,時間的遅延と関連するコストを伴って,新たなアームセットを要求できるコンテキスト的バンディット問題の拡張を提案する。
この設定では、学習者は、各選択が1つの時間単位を取るように、決定セットから複数のアームを選択することができる。
我々は、武器を効果的に選択し、新しい武器を要求する適切な時間を決定するアルゴリズムを設計し、彼らの後悔を最小限に抑える。
論文 参考訳(メタデータ) (2024-10-17T00:44:50Z) - How to Choose a Reinforcement-Learning Algorithm [29.76033485145459]
我々は、強化学習アルゴリズムと行動配信ファミリーを選択するプロセスの合理化を図る。
既存のメソッドとその特性に関する構造化された概要と、どのメソッドを選択するかのガイドラインを提供する。
論文 参考訳(メタデータ) (2024-07-30T15:54:18Z) - Stochastic Rising Bandits [40.32303434592863]
本研究は、腕が単調に非減少している、安静時および安静時バンディットの特定の症例について検討する。
この特性により、ペイオフの規則性を利用して、厳密な後悔の限界を提供する、特別に構築されたアルゴリズムを設計することができる。
我々は,本アルゴリズムを実世界のデータセットに対するオンラインモデル選択問題や,複数の合成されたタスクに対する非定常MABの最先端手法と経験的に比較した。
論文 参考訳(メタデータ) (2022-12-07T17:30:45Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Max-Utility Based Arm Selection Strategy For Sequential Query
Recommendations [16.986870945319293]
オンライン情報収集や探索分析のようなクローズドループ対話型学習環境におけるクエリレコメンデーション問題について考察する。
この問題は、数え切れないほど多くの腕を持つマルチアーマッド・バンド(MAB)フレームワークを使って、自然にモデル化することができる。
このような選択戦略がしばしば高い累積的後悔をもたらすことを示し、この結果から、武器の最大有効性に基づく選択戦略を提案する。
論文 参考訳(メタデータ) (2021-08-31T13:03:30Z) - Algorithm Selection on a Meta Level [58.720142291102135]
本稿では,与えられたアルゴリズムセレクタの組み合わせに最適な方法を求めるメタアルゴリズム選択の問題を紹介する。
本稿では,メタアルゴリズム選択のための一般的な方法論フレームワークと,このフレームワークのインスタンス化として具体的な学習手法を提案する。
論文 参考訳(メタデータ) (2021-07-20T11:23:21Z) - Determinantal Beam Search [75.84501052642361]
ビームサーチは、ニューラルシーケンスモデルをデコードするためのゴーツー戦略である。
複数のソリューションを要求するユースケースでは、多様あるいは代表的なセットがしばしば望まれる。
ビームサーチを一連の部分決定問題として繰り返し行うことにより、アルゴリズムを多種多様なサブセット選択プロセスに変換することができる。
論文 参考訳(メタデータ) (2021-06-14T13:01:46Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Run2Survive: A Decision-theoretic Approach to Algorithm Selection based
on Survival Analysis [75.64261155172856]
生存分析(SA)は、自然に検閲されたデータをサポートし、アルゴリズムランタイムの分散モデルを学習するためにそのようなデータを使用する適切な方法を提供する。
我々は、アルゴリズム選択に対する洗練された決定論的アプローチの基礎として、そのようなモデルを活用し、Run2Surviveを疑う。
標準ベンチマークASlibによる広範な実験では、我々のアプローチは競争力が高く、多くの場合、最先端のASアプローチよりも優れていることが示されている。
論文 参考訳(メタデータ) (2020-07-06T15:20:17Z) - Extreme Algorithm Selection With Dyadic Feature Representation [78.13985819417974]
我々は,数千の候補アルゴリズムの固定セットを考慮に入れた,極端なアルゴリズム選択(XAS)の設定を提案する。
我々は、XAS設定に対する最先端のAS技術の適用性を評価し、Dyadic特徴表現を利用したアプローチを提案する。
論文 参考訳(メタデータ) (2020-01-29T09:40:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。