論文の概要: Identifiable Latent Bandits: Leveraging observational data for personalized decision-making
- arxiv url: http://arxiv.org/abs/2407.16239v3
- Date: Tue, 10 Jun 2025 08:30:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:38.653397
- Title: Identifiable Latent Bandits: Leveraging observational data for personalized decision-making
- Title(参考訳): 特定可能な潜在帯域:パーソナライズされた意思決定のための観測データを活用する
- Authors: Ahmet Zahid Balcıoğlu, Newton Mwai, Emil Carlsson, Fredrik D. Johansson,
- Abstract要約: 本稿では,古典的盗賊よりも短い探索時間で最適な意思決定につながる,識別可能な潜伏盗賊の枠組みを提案する。
本手法は,観測データから表現を確実に同定し,新たなバンドイットインスタンスの最適動作を推測する非線形独立成分分析に基づく。
- 参考スコア(独自算出の注目度): 7.0774164818430565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For many decision-making tasks, such as precision medicine, historical data alone are insufficient to determine the right choice for a new problem instance or patient. Online algorithms like multi-armed bandits can find optimal personalized decisions but are notoriously sample-hungry. In practice, training a bandit for a new individual from scratch is often infeasible, as the number of trials required is larger than the practical number of decision points. Latent bandits offer rapid exploration and personalization beyond what context variables can reveal, provided that a latent variable model can be learned consistently. In this work, we propose an identifiable latent bandit framework that leads to optimal decision-making with a shorter exploration time than classical bandits by learning from historical records of decisions and outcomes. Our method is based on nonlinear independent component analysis that provably identifies representations from observational data sufficient to infer the optimal action in new bandit instances. We verify this strategy in simulated and semi-synthetic environments, showing substantial improvement over online and offline learning baselines when identifying conditions are satisfied.
- Abstract(参考訳): 精密医療など多くの意思決定タスクにおいて、新しい問題事例や患者に適切な選択を下すには、過去のデータだけでは不十分である。
マルチアームの盗賊のようなオンラインアルゴリズムは、最適なパーソナライズされた決定を見つけることができる。
実際には、必要な試行回数が実際の決定ポイントの数よりも大きいため、スクラッチから新しい個人のための盗賊を訓練することは不可能であることが多い。
潜伏帯域は、潜伏変数モデルが一貫して学習可能であることを前提として、文脈変数が明らかにできる範囲を超えて、迅速な探索とパーソナライズを提供する。
本研究は,古典的盗賊よりも短い探索時間で,決定と結果の歴史的記録から学習することで,最適な意思決定につながる,識別可能な潜伏盗賊の枠組みを提案する。
本手法は,観測データから表現を確実に同定し,新たなバンドイットインスタンスの最適動作を推測する非線形独立成分分析に基づく。
この戦略をシミュレーションおよび半合成環境で検証し、条件が満たされた場合のオンラインおよびオフライン学習ベースラインよりも大幅に改善したことを示す。
関連論文リスト
- Integrating Response Time and Attention Duration in Bayesian Preference Learning for Multiple Criteria Decision Aiding [2.9457161327910693]
本稿では,意思決定支援のための行動規範を取り入れたベイズ選好学習フレームワークについて紹介する。
このフレームワークは、ペアワイズ比較、応答時間、注意期間を統合して、意思決定プロセスに関する洞察を深めます。
論文 参考訳(メタデータ) (2025-04-21T08:01:44Z) - Stochastic Linear Bandits with Latent Heterogeneity [8.981251210938787]
本稿では、この未観測不均一性を顧客応答で明示的にモデル化する、新しい遅延不均一バンディットフレームワークを提案する。
本手法では,グループメンバシップとグループ固有報酬関数を同時に学習する革新的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-01T13:02:21Z) - Detecting and Identifying Selection Structure in Sequential Data [53.24493902162797]
我々は,音楽のシーケンスなどの実践的な状況において,潜在目的に基づくデータポイントの選択的包摂が一般的である,と論じる。
選択構造はパラメトリックな仮定や介入実験なしで識別可能であることを示す。
また、他の種類の依存関係と同様に、選択構造を検知し、識別するための証明可能な正当性アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-29T20:56:34Z) - Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。
バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。
DivBS(Diversified Batch Selection)を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:12:20Z) - Is Offline Decision Making Possible with Only Few Samples? Reliable
Decisions in Data-Starved Bandits via Trust Region Enhancement [25.68354404229254]
データスターブされた設定であっても、最適な設定と競合するポリシーを見つけることが可能であることを示す。
これは、少数のサンプルにのみ依存することで重要な決定をしなければならない設定において、信頼性の高い意思決定への道を開くものだ。
論文 参考訳(メタデータ) (2024-02-24T03:41:09Z) - Thompson sampling for zero-inflated count outcomes with an application to the Drink Less mobile health study [1.5936659933030128]
モバイルヘルス介入は、ジャスト・イン・タイム・アダプティブ・イン・タイム・イン・アダプティブ・介入によって近位結果の最適化によって、臨床症状などの遠位結果を改善することを目的としている。
コンテキストブレイディットは、個々の時間によって異なるコンテキストに応じて、そのような介入をカスタマイズするための適切なフレームワークを提供する。
現在の作業では、カウントデータモデルをオンライン意思決定アプローチに活用することで、この問題に対処している。
論文 参考訳(メタデータ) (2023-11-24T09:02:24Z) - Robust Best-arm Identification in Linear Bandits [25.91361349646875]
線形報酬の場合のロバストベストアーム識別問題(RBAI)について検討する。
線形報酬を持つロバストなベストアーム識別問題に対して、インスタンス依存の下位境界を提案する。
本アルゴリズムは, 高齢者の年齢帯におけるロバストな服用値の同定に有効であることが証明された。
論文 参考訳(メタデータ) (2023-11-08T14:58:11Z) - Late Stopping: Avoiding Confidently Learning from Mislabeled Examples [61.00103151680946]
そこで本研究では,DNNの長期学習プロセスを通じて,本質的な頑健な学習能力を生かした新しいフレームワークであるLatlas Stoppingを提案する。
誤ラベルとクリーンな例は、それらが一貫して正しく分類されるために必要なエポックの数に相違があることを実証的に観察する。
ベンチマークシミュレーションと実世界のノイズデータセットによる実験結果から,提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-26T12:43:25Z) - Towards Accelerated Model Training via Bayesian Data Selection [45.62338106716745]
本稿では,モデルの一般化損失に対するデータの影響を調べることによって,より合理的なデータ選択原理を提案する。
近年の研究では、モデルの一般化損失に対するデータの影響を調べることによって、より合理的なデータ選択の原則が提案されている。
この研究は、軽量ベイズ処理を活用し、大規模な事前訓練モデル上に構築された既製のゼロショット予測器を組み込むことにより、これらの問題を解決する。
論文 参考訳(メタデータ) (2023-08-21T07:58:15Z) - Leveraging Unlabelled Data in Multiple-Instance Learning Problems for
Improved Detection of Parkinsonian Tremor in Free-Living Conditions [80.88681952022479]
本稿では,半教師付き学習とマルチスタンス学習を組み合わせた新しい手法を提案する。
本研究は,454被験者の非競合データを活用することにより,物体ごとの震動検出において大きな性能向上が達成できることを示す。
論文 参考訳(メタデータ) (2023-04-29T12:25:10Z) - ORF-Net: Deep Omni-supervised Rib Fracture Detection from Chest CT Scans [47.7670302148812]
放射線科医は、スライス・バイ・スライス・バイ・スライス(スライス・バイ・スライス・スライス・バイ・スライス・バイ・スライス・バイ・スライス)に基づいてリブ骨折の調査と注釈を行う必要がある。
そこで本研究では,複数種類の注釈付きデータを利用するOmni教師付きオブジェクト検出ネットワークを提案する。
提案手法は、他の最先端手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2022-07-05T07:06:57Z) - MURAL: An Unsupervised Random Forest-Based Embedding for Electronic
Health Record Data [59.26381272149325]
異なる変数型でデータを表現するための教師なしランダムフォレストを提案する。
muraL forestsは、ノード分割変数がランダムに選択される一連の決定ツリーで構成されている。
提案手法を用いることで,競合するアプローチよりも正確なデータの視覚化と分類が可能であることを示す。
論文 参考訳(メタデータ) (2021-11-19T22:02:21Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Reconciling Risk Allocation and Prevalence Estimation in Public Health
Using Batched Bandits [0.0]
多くの公衆衛生環境では、既知の脆弱な領域に資源を割り当てることと、問題の全体的な頻度について学ぶことに緊張感がある。
ドアツードアのCovid-19テストプログラムにインスパイアされた私たちは、多武装のバンディット戦略とサンプリング理論からの洞察を組み合わせて、リスクの高い地域へのリソースの割り当てを続けながら、正確な有病率推定を回復する方法を実証しました。
論文 参考訳(メタデータ) (2021-10-25T22:33:46Z) - Analysis of Thompson Sampling for Partially Observable Contextual
Multi-Armed Bandits [1.8275108630751844]
我々は、部分的に観測可能なコンテキスト多重武装バンディットのためのトンプソンサンプリングアルゴリズムを提案する。
提示された政策の後悔は、時間と武器の数に応じて対数的にスケールし、寸法と直線的にスケールすることを示す。
論文 参考訳(メタデータ) (2021-10-23T08:51:49Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z) - Online Active Model Selection for Pre-trained Classifiers [72.84853880948894]
我々は,任意のラウンドにおいて高い確率で最良のモデルをラベル付けし,出力する情報的サンプルを積極的に選択するオンライン選択的サンプリング手法を設計する。
我々のアルゴリズムは、敵とストリームの両方のオンライン予測タスクに利用できる。
論文 参考訳(メタデータ) (2020-10-19T19:53:15Z) - Latent Bandits Revisited [55.88616813182679]
潜伏盗賊問題は、学習エージェントが未知の離散潜伏状態に条件付けられた腕の報酬分布を知知する問題である。
本稿では, 上位信頼境界(UCB)とトンプソンサンプリング(Thompson sample)の両方に基づいて, この設定のための一般的なアルゴリズムを提案する。
我々はアルゴリズムの統一的な理論的解析を行い、遅延状態の数がアクションよりも小さい場合、古典的なバンディットポリシーよりも後悔度が低い。
論文 参考訳(メタデータ) (2020-06-15T19:24:02Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。