論文の概要: Cost-Efficient Online Decision Making: A Combinatorial Multi-Armed
Bandit Approach
- arxiv url: http://arxiv.org/abs/2308.10699v1
- Date: Mon, 21 Aug 2023 13:09:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 13:28:55.838424
- Title: Cost-Efficient Online Decision Making: A Combinatorial Multi-Armed
Bandit Approach
- Title(参考訳): 費用効率の良いオンライン意思決定:A Combinatorial Multi-Armed Bandit Approach
- Authors: Arman Rahbar, Niklas {\AA}kerblom, Morteza Haghir Chehreghani
- Abstract要約: 我々は,多武器の盗賊に基づくオンライン意思決定問題の新たな定式化と,テストの実行コストを考慮に入れた。
この定式化に基づいて,後方サンプリングやベイズUCBを探索に利用できる費用効率の高いオンライン意思決定のための新しい枠組みを提供する。
- 参考スコア(独自算出の注目度): 3.0846824529023382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online decision making plays a crucial role in numerous real-world
applications. In many scenarios, the decision is made based on performing a
sequence of tests on the incoming data points. However, performing all tests
can be expensive and is not always possible. In this paper, we provide a novel
formulation of the online decision making problem based on combinatorial
multi-armed bandits and take the cost of performing tests into account. Based
on this formulation, we provide a new framework for cost-efficient online
decision making which can utilize posterior sampling or BayesUCB for
exploration. We provide a rigorous theoretical analysis for our framework and
present various experimental results that demonstrate its applicability to
real-world problems.
- Abstract(参考訳): オンライン意思決定は多くの現実世界のアプリケーションにおいて重要な役割を果たす。
多くのシナリオでは、入ってくるデータポイントで一連のテストを実行することに基づいて決定が行われる。
しかし、すべてのテストの実行は高価であり、常に可能であるとは限らない。
本稿では,組合せ型マルチアームバンディットに基づくオンライン意思決定問題の新たな定式化と,テストの実行コストを考慮に入れた。
この定式化に基づいて,後方サンプリングやベイズUCBを探索に利用できる費用効率の高いオンライン意思決定のための新しい枠組みを提供する。
本フレームワークの厳密な理論解析を行い,実世界問題への適用性を示す実験結果を提示した。
関連論文リスト
- Compute-Constrained Data Selection [77.06528009072967]
コスト対応ユーティリティ関数を用いてデータ選択の問題を定式化し、その問題をトレーニングのための初期選択コストのトレーディングとしてモデル化する。
複数のタスク、微調整トークンのスケーリングによる計算予算、モデルサイズ、データ選択計算など、包括的な実験を網羅的に実施しています。
論文 参考訳(メタデータ) (2024-10-21T17:11:21Z) - Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。
バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。
DivBS(Diversified Batch Selection)を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:12:20Z) - Efficient Online Decision Tree Learning with Active Feature Acquisition [15.62601444419354]
医学診断では、医師は患者に対してどの検査を行うかを選択する必要がある。
私たちのフレームワークは、オンライン学習スキームに埋め込まれたアクティブプランニングオラクルで構成されています。
適応的部分モジュラリティに基づく代理情報取得関数を用いて,最小コストで特徴値の探索を行う。
論文 参考訳(メタデータ) (2023-05-03T12:56:43Z) - Experimentation Platforms Meet Reinforcement Learning: Bayesian
Sequential Decision-Making for Continuous Monitoring [13.62951379287041]
本稿では、顧客体験を最大化し、機会コストを制御するためにAmazonで開発した新しいフレームワークを紹介する。
この問題を統一効用関数を持つベイズ最適逐次決定問題として定式化する。
本手法の有効性を,Amazon実験における大規模メタ分析による既存手法と比較した。
論文 参考訳(メタデータ) (2023-04-02T00:59:10Z) - Online Learning under Budget and ROI Constraints via Weak Adaptivity [57.097119428915796]
制約付きオンライン学習問題に対する既存の原始双対アルゴリズムは、2つの基本的な仮定に依存している。
このような仮定は、標準の原始双対テンプレートを弱適応的後悔最小化器で与えることによって、どのように回避できるのかを示す。
上記の2つの前提が満たされていない場合に保証される、世界の最高の保証を証明します。
論文 参考訳(メタデータ) (2023-02-02T16:30:33Z) - Clustering-based Imputation for Dropout Buyers in Large-scale Online
Experimentation [4.753069295451989]
オンライン実験では、適切な指標(例えば購入)が仮説を支持し、意思決定プロセスを強化する強力な証拠を提供する。
本研究では,ドロップアウト購入者の概念を導入し,不完全なメトリック値を持つユーザを,訪問者とドロップアウト購入者という2つのグループに分類する。
不完全なメトリクスを分析するために、$k$-nearest 隣人を用いたクラスタリングベースの計算法を提案する。
論文 参考訳(メタデータ) (2022-09-09T01:05:53Z) - LBCF: A Large-Scale Budget-Constrained Causal Forest Algorithm [11.82503645248441]
予算制約の下で各ユーザに対して適切なインセンティブ(すなわち治療)を選択する方法が重要な研究課題である。
本稿では,大規模予算制約付き因果樹林 (LBCF) アルゴリズムと呼ばれる,予算制約下での新規な木に基づく治療選択手法を提案する。
当社のアプローチは,ユーザのキャンペーンエンゲージメント期間を増やすために,大規模なビデオプラットフォーム上で現実のシナリオに展開する。
論文 参考訳(メタデータ) (2022-01-29T13:21:07Z) - Discovering Diverse Solutions in Deep Reinforcement Learning [84.45686627019408]
強化学習アルゴリズムは通常、特定のタスクの単一のソリューションを学ぶことに限定される。
連続的あるいは離散的な低次元潜在変数に条件付きポリシーを訓練することにより、無限に多くの解を学習できるRL法を提案する。
論文 参考訳(メタデータ) (2021-03-12T04:54:31Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Online Active Model Selection for Pre-trained Classifiers [72.84853880948894]
我々は,任意のラウンドにおいて高い確率で最良のモデルをラベル付けし,出力する情報的サンプルを積極的に選択するオンライン選択的サンプリング手法を設計する。
我々のアルゴリズムは、敵とストリームの両方のオンライン予測タスクに利用できる。
論文 参考訳(メタデータ) (2020-10-19T19:53:15Z) - Online Learning of Facility Locations [21.451413948517228]
施設立地問題のオンライン学習版に関する厳密な理論的調査を行う。
私たちの定式化では、一連のサイトとオンラインのユーザリクエストが与えられます。
各試行において、学習者は、サイトのサブセットを選択し、選択したサイトのコストと、選択したサブセット内の最も近いサイトへのユーザの接続の価格である追加コストとを発生させる。
論文 参考訳(メタデータ) (2020-07-06T15:04:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。