論文の概要: Identifiable Latent Bandits: Leveraging observational data for personalized decision-making
- arxiv url: http://arxiv.org/abs/2407.16239v3
- Date: Tue, 10 Jun 2025 08:30:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:38.653397
- Title: Identifiable Latent Bandits: Leveraging observational data for personalized decision-making
- Title(参考訳): 特定可能な潜在帯域:パーソナライズされた意思決定のための観測データを活用する
- Authors: Ahmet Zahid Balcıoğlu, Newton Mwai, Emil Carlsson, Fredrik D. Johansson,
- Abstract要約: 本稿では,古典的盗賊よりも短い探索時間で最適な意思決定につながる,識別可能な潜伏盗賊の枠組みを提案する。
本手法は,観測データから表現を確実に同定し,新たなバンドイットインスタンスの最適動作を推測する非線形独立成分分析に基づく。
- 参考スコア(独自算出の注目度): 7.0774164818430565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For many decision-making tasks, such as precision medicine, historical data alone are insufficient to determine the right choice for a new problem instance or patient. Online algorithms like multi-armed bandits can find optimal personalized decisions but are notoriously sample-hungry. In practice, training a bandit for a new individual from scratch is often infeasible, as the number of trials required is larger than the practical number of decision points. Latent bandits offer rapid exploration and personalization beyond what context variables can reveal, provided that a latent variable model can be learned consistently. In this work, we propose an identifiable latent bandit framework that leads to optimal decision-making with a shorter exploration time than classical bandits by learning from historical records of decisions and outcomes. Our method is based on nonlinear independent component analysis that provably identifies representations from observational data sufficient to infer the optimal action in new bandit instances. We verify this strategy in simulated and semi-synthetic environments, showing substantial improvement over online and offline learning baselines when identifying conditions are satisfied.
- Abstract(参考訳): 精密医療など多くの意思決定タスクにおいて、新しい問題事例や患者に適切な選択を下すには、過去のデータだけでは不十分である。
マルチアームの盗賊のようなオンラインアルゴリズムは、最適なパーソナライズされた決定を見つけることができる。
実際には、必要な試行回数が実際の決定ポイントの数よりも大きいため、スクラッチから新しい個人のための盗賊を訓練することは不可能であることが多い。
潜伏帯域は、潜伏変数モデルが一貫して学習可能であることを前提として、文脈変数が明らかにできる範囲を超えて、迅速な探索とパーソナライズを提供する。
本研究は,古典的盗賊よりも短い探索時間で,決定と結果の歴史的記録から学習することで,最適な意思決定につながる,識別可能な潜伏盗賊の枠組みを提案する。
本手法は,観測データから表現を確実に同定し,新たなバンドイットインスタンスの最適動作を推測する非線形独立成分分析に基づく。
この戦略をシミュレーションおよび半合成環境で検証し、条件が満たされた場合のオンラインおよびオフライン学習ベースラインよりも大幅に改善したことを示す。
関連論文リスト
- Thompson sampling for zero-inflated count outcomes with an application to the Drink Less mobile health study [1.5936659933030128]
モバイルヘルス介入は、ジャスト・イン・タイム・アダプティブ・イン・タイム・イン・アダプティブ・介入によって近位結果の最適化によって、臨床症状などの遠位結果を改善することを目的としている。
コンテキストブレイディットは、個々の時間によって異なるコンテキストに応じて、そのような介入をカスタマイズするための適切なフレームワークを提供する。
現在の作業では、カウントデータモデルをオンライン意思決定アプローチに活用することで、この問題に対処している。
論文 参考訳(メタデータ) (2023-11-24T09:02:24Z) - Robust Best-arm Identification in Linear Bandits [25.91361349646875]
線形報酬の場合のロバストベストアーム識別問題(RBAI)について検討する。
線形報酬を持つロバストなベストアーム識別問題に対して、インスタンス依存の下位境界を提案する。
本アルゴリズムは, 高齢者の年齢帯におけるロバストな服用値の同定に有効であることが証明された。
論文 参考訳(メタデータ) (2023-11-08T14:58:11Z) - Leveraging Unlabelled Data in Multiple-Instance Learning Problems for
Improved Detection of Parkinsonian Tremor in Free-Living Conditions [80.88681952022479]
本稿では,半教師付き学習とマルチスタンス学習を組み合わせた新しい手法を提案する。
本研究は,454被験者の非競合データを活用することにより,物体ごとの震動検出において大きな性能向上が達成できることを示す。
論文 参考訳(メタデータ) (2023-04-29T12:25:10Z) - ORF-Net: Deep Omni-supervised Rib Fracture Detection from Chest CT Scans [47.7670302148812]
放射線科医は、スライス・バイ・スライス・バイ・スライス(スライス・バイ・スライス・スライス・バイ・スライス・バイ・スライス・バイ・スライス)に基づいてリブ骨折の調査と注釈を行う必要がある。
そこで本研究では,複数種類の注釈付きデータを利用するOmni教師付きオブジェクト検出ネットワークを提案する。
提案手法は、他の最先端手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2022-07-05T07:06:57Z) - MURAL: An Unsupervised Random Forest-Based Embedding for Electronic
Health Record Data [59.26381272149325]
異なる変数型でデータを表現するための教師なしランダムフォレストを提案する。
muraL forestsは、ノード分割変数がランダムに選択される一連の決定ツリーで構成されている。
提案手法を用いることで,競合するアプローチよりも正確なデータの視覚化と分類が可能であることを示す。
論文 参考訳(メタデータ) (2021-11-19T22:02:21Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Reconciling Risk Allocation and Prevalence Estimation in Public Health
Using Batched Bandits [0.0]
多くの公衆衛生環境では、既知の脆弱な領域に資源を割り当てることと、問題の全体的な頻度について学ぶことに緊張感がある。
ドアツードアのCovid-19テストプログラムにインスパイアされた私たちは、多武装のバンディット戦略とサンプリング理論からの洞察を組み合わせて、リスクの高い地域へのリソースの割り当てを続けながら、正確な有病率推定を回復する方法を実証しました。
論文 参考訳(メタデータ) (2021-10-25T22:33:46Z) - Analysis of Thompson Sampling for Partially Observable Contextual
Multi-Armed Bandits [1.8275108630751844]
我々は、部分的に観測可能なコンテキスト多重武装バンディットのためのトンプソンサンプリングアルゴリズムを提案する。
提示された政策の後悔は、時間と武器の数に応じて対数的にスケールし、寸法と直線的にスケールすることを示す。
論文 参考訳(メタデータ) (2021-10-23T08:51:49Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。