論文の概要: Cost-Efficient Online Decision Making: A Combinatorial Multi-Armed
Bandit Approach
- arxiv url: http://arxiv.org/abs/2308.10699v2
- Date: Mon, 5 Feb 2024 13:52:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 05:28:50.411688
- Title: Cost-Efficient Online Decision Making: A Combinatorial Multi-Armed
Bandit Approach
- Title(参考訳): 費用効率の良いオンライン意思決定:A Combinatorial Multi-Armed Bandit Approach
- Authors: Arman Rahbar, Niklas {\AA}kerblom, Morteza Haghir Chehreghani
- Abstract要約: 本稿では,多武装の盗賊に基づくオンライン意思決定問題の新たな定式化と,テストの実行コストを考慮に入れた。
実世界の問題に対する我々のフレームワークの適用性を示す様々な実験結果を示す。
- 参考スコア(独自算出の注目度): 3.0846824529023382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online decision making plays a crucial role in numerous real-world
applications. In many scenarios, the decision is made based on performing a
sequence of tests on the incoming data points. However, performing all tests
can be expensive and is not always possible. In this paper, we provide a novel
formulation of the online decision making problem based on combinatorial
multi-armed bandits and take the (possibly stochastic) cost of performing tests
into account. Based on this formulation, we provide a new framework for
cost-efficient online decision making which can utilize posterior sampling or
BayesUCB for exploration. We provide a theoretical analysis of Thompson
Sampling for cost-efficient online decision making, and present various
experimental results that demonstrate the applicability of our framework to
real-world problems.
- Abstract(参考訳): オンライン意思決定は多くの現実世界のアプリケーションにおいて重要な役割を果たす。
多くのシナリオでは、入ってくるデータポイントで一連のテストを実行することに基づいて決定が行われる。
しかし、すべてのテストの実行は高価であり、常に可能であるとは限らない。
本稿では,コンビネータ型多腕バンディットに基づくオンライン意思決定問題の新規な定式化と,テスト実行の(おそらく確率的)コストを考慮に入れる。
この定式化に基づいて,後方サンプリングやベイズUCBを探索に利用できる費用効率の高いオンライン意思決定のための新しい枠組みを提供する。
我々は,コスト効率の高いオンライン意思決定のためのトンプソンサンプリングの理論的解析を行い,実世界問題に対するフレームワークの適用性を示す様々な実験結果を示す。
関連論文リスト
- Offline Learning for Combinatorial Multi-armed Bandits [56.96242764723241]
Off-CMABはCMABの最初のオフライン学習フレームワークである。
Off-CMABは悲観的な報酬推定と解法を組み合わせる。
合成および実世界のデータセットの実験は、CLCBの優れた性能を強調している。
論文 参考訳(メタデータ) (2025-01-31T16:56:18Z) - SKADA-Bench: Benchmarking Unsupervised Domain Adaptation Methods with Realistic Validation On Diverse Modalities [55.87169702896249]
Unsupervised Domain Adaptation (DA) は、ラベル付きソースドメインでトレーニングされたモデルを適用して、ラベルなしのターゲットドメインでデータ分散シフトをうまく実行する。
本稿では,再重み付け,マッピング,部分空間アライメントなど,既存の浅層アルゴリズムの完全かつ公平な評価を行う。
本ベンチマークでは,現実的な検証の重要性を強調し,現実的なアプリケーションに対する実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-07-16T12:52:29Z) - Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。
バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。
DivBS(Diversified Batch Selection)を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:12:20Z) - Efficient Online Decision Tree Learning with Active Feature Acquisition [15.62601444419354]
医学診断では、医師は患者に対してどの検査を行うかを選択する必要がある。
私たちのフレームワークは、オンライン学習スキームに埋め込まれたアクティブプランニングオラクルで構成されています。
適応的部分モジュラリティに基づく代理情報取得関数を用いて,最小コストで特徴値の探索を行う。
論文 参考訳(メタデータ) (2023-05-03T12:56:43Z) - Experimentation Platforms Meet Reinforcement Learning: Bayesian
Sequential Decision-Making for Continuous Monitoring [13.62951379287041]
本稿では、顧客体験を最大化し、機会コストを制御するためにAmazonで開発した新しいフレームワークを紹介する。
この問題を統一効用関数を持つベイズ最適逐次決定問題として定式化する。
本手法の有効性を,Amazon実験における大規模メタ分析による既存手法と比較した。
論文 参考訳(メタデータ) (2023-04-02T00:59:10Z) - Online Learning under Budget and ROI Constraints via Weak Adaptivity [57.097119428915796]
制約付きオンライン学習問題に対する既存の原始双対アルゴリズムは、2つの基本的な仮定に依存している。
このような仮定は、標準の原始双対テンプレートを弱適応的後悔最小化器で与えることによって、どのように回避できるのかを示す。
上記の2つの前提が満たされていない場合に保証される、世界の最高の保証を証明します。
論文 参考訳(メタデータ) (2023-02-02T16:30:33Z) - Clustering-based Imputation for Dropout Buyers in Large-scale Online
Experimentation [4.753069295451989]
オンライン実験では、適切な指標(例えば購入)が仮説を支持し、意思決定プロセスを強化する強力な証拠を提供する。
本研究では,ドロップアウト購入者の概念を導入し,不完全なメトリック値を持つユーザを,訪問者とドロップアウト購入者という2つのグループに分類する。
不完全なメトリクスを分析するために、$k$-nearest 隣人を用いたクラスタリングベースの計算法を提案する。
論文 参考訳(メタデータ) (2022-09-09T01:05:53Z) - LBCF: A Large-Scale Budget-Constrained Causal Forest Algorithm [11.82503645248441]
予算制約の下で各ユーザに対して適切なインセンティブ(すなわち治療)を選択する方法が重要な研究課題である。
本稿では,大規模予算制約付き因果樹林 (LBCF) アルゴリズムと呼ばれる,予算制約下での新規な木に基づく治療選択手法を提案する。
当社のアプローチは,ユーザのキャンペーンエンゲージメント期間を増やすために,大規模なビデオプラットフォーム上で現実のシナリオに展開する。
論文 参考訳(メタデータ) (2022-01-29T13:21:07Z) - Discovering Diverse Solutions in Deep Reinforcement Learning [84.45686627019408]
強化学習アルゴリズムは通常、特定のタスクの単一のソリューションを学ぶことに限定される。
連続的あるいは離散的な低次元潜在変数に条件付きポリシーを訓練することにより、無限に多くの解を学習できるRL法を提案する。
論文 参考訳(メタデータ) (2021-03-12T04:54:31Z) - Online Active Model Selection for Pre-trained Classifiers [72.84853880948894]
我々は,任意のラウンドにおいて高い確率で最良のモデルをラベル付けし,出力する情報的サンプルを積極的に選択するオンライン選択的サンプリング手法を設計する。
我々のアルゴリズムは、敵とストリームの両方のオンライン予測タスクに利用できる。
論文 参考訳(メタデータ) (2020-10-19T19:53:15Z) - Online Learning of Facility Locations [21.451413948517228]
施設立地問題のオンライン学習版に関する厳密な理論的調査を行う。
私たちの定式化では、一連のサイトとオンラインのユーザリクエストが与えられます。
各試行において、学習者は、サイトのサブセットを選択し、選択したサイトのコストと、選択したサブセット内の最も近いサイトへのユーザの接続の価格である追加コストとを発生させる。
論文 参考訳(メタデータ) (2020-07-06T15:04:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。