論文の概要: Debiased Machine Learning and Network Cohesion for Doubly-Robust
Differential Reward Models in Contextual Bandits
- arxiv url: http://arxiv.org/abs/2312.06403v2
- Date: Fri, 15 Dec 2023 01:29:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 18:26:32.334825
- Title: Debiased Machine Learning and Network Cohesion for Doubly-Robust
Differential Reward Models in Contextual Bandits
- Title(参考訳): コンテキストバンディットにおける2倍ロバスト差動報酬モデルのための偏差機械学習とネットワーク凝集
- Authors: Easton K. Huch, Jieru Shi, Madeline R. Abbott, Jessica R. Golbus,
Alexander Moreno, and Walter H. Dempsey
- Abstract要約: 我々は'DML-TS-NNR'と呼ばれる新しいトンプソンサンプリングアルゴリズムを提案する。
ベースライン報酬を明示的にモデル化することにより、差分報酬パラメータに対する信頼度を小さくする。
実証的な結果によって支持される擬似回帰に関する理論的保証を提供する。
- 参考スコア(独自算出の注目度): 39.8207428422509
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A common approach to learning mobile health (mHealth) intervention policies
is linear Thompson sampling. Two desirable mHealth policy features are (1)
pooling information across individuals and time and (2) incorporating a
time-varying baseline reward. Previous approaches pooled information across
individuals but not time, failing to capture trends in treatment effects over
time. In addition, these approaches did not explicitly model the baseline
reward, which limited the ability to precisely estimate the parameters in the
differential reward model. In this paper, we propose a novel Thompson sampling
algorithm, termed ''DML-TS-NNR'' that leverages (1) nearest-neighbors to
efficiently pool information on the differential reward function across users
and time and (2) the Double Machine Learning (DML) framework to explicitly
model baseline rewards and stay agnostic to the supervised learning algorithms
used. By explicitly modeling baseline rewards, we obtain smaller confidence
sets for the differential reward parameters. We offer theoretical guarantees on
the pseudo-regret, which are supported by empirical results. Importantly, the
DML-TS-NNR algorithm demonstrates robustness to potential misspecifications in
the baseline reward model.
- Abstract(参考訳): モバイルヘルス(mhealth)の介入ポリシーを学ぶ一般的なアプローチは、線形トンプソンサンプリングである。
2つの望ましいmhealthポリシーフィーチャは、(1)個人と時間にまたがる情報をプールすること、(2)時間的なベースライン報酬を組み込むことである。
これまでのアプローチでは、個人間で情報をプールするが、時間ではなく、時間とともに治療効果の傾向を捉えることができなかった。
さらに、これらのアプローチはベースライン報酬を明示的にモデル化していないため、差分報酬モデルのパラメータを正確に推定する能力が制限された。
本稿では,(1)近隣住民が利用者と時間にまたがる差分報酬関数に関する情報を効率的にプールする「DML-TS-NNR」と呼ばれる新しいトンプソンサンプリングアルゴリズムを提案し,(2)ベースライン報酬を明示的にモデル化し,使用する教師付き学習アルゴリズムに非依存な状態を保つためのDML(Double Machine Learning)フレームワークを提案する。
ベースライン報酬を明示的にモデル化することにより、差分報酬パラメータに対する信頼度を小さくする。
実証的な結果によって支持される擬似回帰に関する理論的保証を提供する。
重要なことに、DML-TS-NNRアルゴリズムはベースライン報酬モデルにおける潜在的な誤特定に対して堅牢性を示す。
関連論文リスト
- Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Fairness Uncertainty Quantification: How certain are you that the model
is fair? [13.209748908186606]
現代の機械学習において、グラディエント・Descent(SGD)型アルゴリズムは、学習されたモデルがランダムであることを示す訓練アルゴリズムとして、ほぼ常に使用される。
本研究では,グループフェアネスを意識した信頼区間(CI)、特にDI(Disparate Impact)とDM(Disparate Mistreatment)を意識した線形二項分類器をオンラインSGD型アルゴリズムを用いてトレーニングする場合に,不公平性テストのための信頼区間(CI)を提供する。
論文 参考訳(メタデータ) (2023-04-27T04:07:58Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Learning Mixtures of Linear Dynamical Systems [94.49754087817931]
そこで我々は,2段階のメタアルゴリズムを開発し,各基底構造LPSモデルを誤り$tildeO(sqrtd/T)$.sqrtd/T)まで効率的に復元する。
提案手法の有効性を検証し,数値実験による理論的研究を検証する。
論文 参考訳(メタデータ) (2022-01-26T22:26:01Z) - Latent Time Neural Ordinary Differential Equations [0.2538209532048866]
本研究では,NODE における不確実性をモデル化するための新しい手法を提案する。
また、各データポイントが終末時間に異なる後続分布を持つことができる適応遅延時間NODE(ALT-NODE)を提案する。
本研究では,合成画像と実世界の画像分類データを用いた実験により,不確実性とロバスト性をモデル化する手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-12-23T17:31:47Z) - Improving Robustness and Uncertainty Modelling in Neural Ordinary
Differential Equations [0.2538209532048866]
本研究では,NODE における不確実性をモデル化するための新しい手法を提案する。
また、各データポイントが終末時間に異なる後続分布を持つことができる適応遅延時間NODE(ALT-NODE)を提案する。
本研究では,合成画像と実世界の画像分類データを用いた実験により,不確実性とロバスト性をモデル化する手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-12-23T16:56:10Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z) - Competition analysis on the over-the-counter credit default swap market [0.0]
両立関係の競合は, 相互の要求により検討する。
初期マージン要件をうまく見積もるモデルを提案する。
第2に、新しい半教師付き予測タスクを用いて、インターディーラー市場での選択肢をモデル化する。
論文 参考訳(メタデータ) (2020-12-03T13:02:53Z) - Privacy-Preserving Object Detection & Localization Using Distributed
Machine Learning: A Case Study of Infant Eyeblink Conditioning [1.3022864665437273]
オブジェクト検出によく使用される2つのアルゴリズムのスケーラブルな分散学習バージョンについて検討する。
医療分野における両アルゴリズムの適用について,心理学・神経科学のパラダイムを用いて検討した。
論文 参考訳(メタデータ) (2020-10-14T17:33:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。