Fugu-MT 論文翻訳(概要): Cost-Efficient Online Decision Making: A Combinatorial Multi-Armed Bandit Approach

論文の概要: Cost-Efficient Online Decision Making: A Combinatorial Multi-Armed Bandit Approach

arxiv url: http://arxiv.org/abs/2308.10699v2
Date: Mon, 5 Feb 2024 13:52:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 05:28:50.411688
Title: Cost-Efficient Online Decision Making: A Combinatorial Multi-Armed Bandit Approach
Title（参考訳）: 費用効率の良いオンライン意思決定:A Combinatorial Multi-Armed Bandit Approach
Authors: Arman Rahbar, Niklas {\AA}kerblom, Morteza Haghir Chehreghani
Abstract要約: 本稿では,多武装の盗賊に基づくオンライン意思決定問題の新たな定式化と,テストの実行コストを考慮に入れた。実世界の問題に対する我々のフレームワークの適用性を示す様々な実験結果を示す。
参考スコア（独自算出の注目度）: 3.0846824529023382
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Online decision making plays a crucial role in numerous real-world applications. In many scenarios, the decision is made based on performing a sequence of tests on the incoming data points. However, performing all tests can be expensive and is not always possible. In this paper, we provide a novel formulation of the online decision making problem based on combinatorial multi-armed bandits and take the (possibly stochastic) cost of performing tests into account. Based on this formulation, we provide a new framework for cost-efficient online decision making which can utilize posterior sampling or BayesUCB for exploration. We provide a theoretical analysis of Thompson Sampling for cost-efficient online decision making, and present various experimental results that demonstrate the applicability of our framework to real-world problems.
Abstract（参考訳）: オンライン意思決定は多くの現実世界のアプリケーションにおいて重要な役割を果たす。多くのシナリオでは、入ってくるデータポイントで一連のテストを実行することに基づいて決定が行われる。しかし、すべてのテストの実行は高価であり、常に可能であるとは限らない。本稿では,コンビネータ型多腕バンディットに基づくオンライン意思決定問題の新規な定式化と,テスト実行の(おそらく確率的)コストを考慮に入れる。この定式化に基づいて,後方サンプリングやベイズUCBを探索に利用できる費用効率の高いオンライン意思決定のための新しい枠組みを提供する。我々は,コスト効率の高いオンライン意思決定のためのトンプソンサンプリングの理論的解析を行い,実世界問題に対するフレームワークの適用性を示す様々な実験結果を示す。

関連論文リスト

Exploring Recommender System Evaluation: A Multi-Modal User Agent Framework for A/B Testing [54.456400601801704]
A/Bテストのためのマルチモーダルユーザエージェント(A/Bエージェント)を提案する。具体的には、A/Bテストのためのレコメンデーションサンドボックス環境を構築し、マルチモーダルおよびマルチページインタラクションを実現する。モデル,データ,機能という3つの観点から,従来のA/Bテストに代わるエージェントの可能性を検証する。
論文参考訳（メタデータ） (2026-01-08T03:33:43Z)
Reliable LLM-Based Edge-Cloud-Expert Cascades for Telecom Knowledge Systems [54.916243942641444]
大規模言語モデル(LLM)は、通信などの分野において、自動化の鍵となる存在として浮上している。本研究では,問合せパイプラインによる意思決定を支援する,エッジクラウドに精通したLLMベースの知識システムについて検討する。
論文参考訳（メタデータ） (2025-12-23T03:10:09Z)
Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs [69.2486294522259]
BaRPはBandit Routing-feedback with Preferencesアプローチであり、デプロイと同じ部分フィードバック制限の下でトレーニングされる。提案手法は,学習中のオンラインフィードバック設定をシミュレートし,新たなプロンプトに適応する。
論文参考訳（メタデータ） (2025-10-08T18:24:59Z)
Sample Complexity and Representation Ability of Test-time Scaling Paradigms [91.34339030453425]
テスト時間スケーリングのパラダイムは、複雑なタスクにおいて、大きな言語モデル(LLM)の能力を向上した。本稿では, 自己整合性, ベスト・オブ・n$, 自己補正など, 様々なテストタイム戦略のサンプル効率について検討する。単一のTransformerアーキテクチャは、ユーザクエリに関連する特定のタスクを事前に知ることなく、複数のタスクを確実に解決することができる。
論文参考訳（メタデータ） (2025-06-05T17:48:19Z)
Offline Learning for Combinatorial Multi-armed Bandits [56.96242764723241]
Off-CMABはCMABの最初のオフライン学習フレームワークである。 Off-CMABは悲観的な報酬推定と解法を組み合わせる。合成および実世界のデータセットの実験は、CLCBの優れた性能を強調している。
論文参考訳（メタデータ） (2025-01-31T16:56:18Z)
Compute-Constrained Data Selection [77.06528009072967]
コスト対応ユーティリティ関数を用いてデータ選択の問題を定式化し、その問題をトレーニングのための初期選択コストのトレーディングとしてモデル化する。複数のタスク、微調整トークンのスケーリングによる計算予算、モデルサイズ、データ選択計算など、包括的な実験を網羅的に実施しています。
論文参考訳（メタデータ） (2024-10-21T17:11:21Z)
SKADA-Bench: Benchmarking Unsupervised Domain Adaptation Methods with Realistic Validation On Diverse Modalities [55.87169702896249]
Unsupervised Domain Adaptation (DA) は、ラベル付きソースドメインでトレーニングされたモデルを適用して、ラベルなしのターゲットドメインでデータ分散シフトをうまく実行する。本稿では,再重み付け,マッピング,部分空間アライメントなど,既存の浅層アルゴリズムの完全かつ公平な評価を行う。本ベンチマークでは,現実的な検証の重要性を強調し,現実的なアプリケーションに対する実践的なガイダンスを提供する。
論文参考訳（メタデータ） (2024-07-16T12:52:29Z)
Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。 DivBS(Diversified Batch Selection)を提案する。
論文参考訳（メタデータ） (2024-06-07T12:12:20Z)
Efficient Online Decision Tree Learning with Active Feature Acquisition [15.62601444419354]
医学診断では、医師は患者に対してどの検査を行うかを選択する必要がある。私たちのフレームワークは、オンライン学習スキームに埋め込まれたアクティブプランニングオラクルで構成されています。適応的部分モジュラリティに基づく代理情報取得関数を用いて,最小コストで特徴値の探索を行う。
論文参考訳（メタデータ） (2023-05-03T12:56:43Z)
Experimentation Platforms Meet Reinforcement Learning: Bayesian Sequential Decision-Making for Continuous Monitoring [13.62951379287041]
本稿では、顧客体験を最大化し、機会コストを制御するためにAmazonで開発した新しいフレームワークを紹介する。この問題を統一効用関数を持つベイズ最適逐次決定問題として定式化する。本手法の有効性を,Amazon実験における大規模メタ分析による既存手法と比較した。
論文参考訳（メタデータ） (2023-04-02T00:59:10Z)
Online Learning under Budget and ROI Constraints via Weak Adaptivity [57.097119428915796]
制約付きオンライン学習問題に対する既存の原始双対アルゴリズムは、2つの基本的な仮定に依存している。このような仮定は、標準の原始双対テンプレートを弱適応的後悔最小化器で与えることによって、どのように回避できるのかを示す。上記の2つの前提が満たされていない場合に保証される、世界の最高の保証を証明します。
論文参考訳（メタデータ） (2023-02-02T16:30:33Z)
Clustering-based Imputation for Dropout Buyers in Large-scale Online Experimentation [4.753069295451989]
オンライン実験では、適切な指標(例えば購入)が仮説を支持し、意思決定プロセスを強化する強力な証拠を提供する。本研究では,ドロップアウト購入者の概念を導入し,不完全なメトリック値を持つユーザを,訪問者とドロップアウト購入者という2つのグループに分類する。不完全なメトリクスを分析するために、$k$-nearest 隣人を用いたクラスタリングベースの計算法を提案する。
論文参考訳（メタデータ） (2022-09-09T01:05:53Z)
LBCF: A Large-Scale Budget-Constrained Causal Forest Algorithm [11.82503645248441]
予算制約の下で各ユーザに対して適切なインセンティブ(すなわち治療)を選択する方法が重要な研究課題である。本稿では,大規模予算制約付き因果樹林 (LBCF) アルゴリズムと呼ばれる,予算制約下での新規な木に基づく治療選択手法を提案する。当社のアプローチは,ユーザのキャンペーンエンゲージメント期間を増やすために,大規模なビデオプラットフォーム上で現実のシナリオに展開する。
論文参考訳（メタデータ） (2022-01-29T13:21:07Z)
Discovering Diverse Solutions in Deep Reinforcement Learning [84.45686627019408]
強化学習アルゴリズムは通常、特定のタスクの単一のソリューションを学ぶことに限定される。連続的あるいは離散的な低次元潜在変数に条件付きポリシーを訓練することにより、無限に多くの解を学習できるRL法を提案する。
論文参考訳（メタデータ） (2021-03-12T04:54:31Z)
Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文参考訳（メタデータ） (2020-11-15T22:36:59Z)
Online Active Model Selection for Pre-trained Classifiers [72.84853880948894]
我々は,任意のラウンドにおいて高い確率で最良のモデルをラベル付けし,出力する情報的サンプルを積極的に選択するオンライン選択的サンプリング手法を設計する。我々のアルゴリズムは、敵とストリームの両方のオンライン予測タスクに利用できる。
論文参考訳（メタデータ） (2020-10-19T19:53:15Z)
Online Learning of Facility Locations [21.451413948517228]
施設立地問題のオンライン学習版に関する厳密な理論的調査を行う。私たちの定式化では、一連のサイトとオンラインのユーザリクエストが与えられます。各試行において、学習者は、サイトのサブセットを選択し、選択したサイトのコストと、選択したサブセット内の最も近いサイトへのユーザの接続の価格である追加コストとを発生させる。
論文参考訳（メタデータ） (2020-07-06T15:04:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。