論文の概要: Truthful mechanisms for linear bandit games with private contexts
- arxiv url: http://arxiv.org/abs/2501.03865v1
- Date: Tue, 07 Jan 2025 15:24:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:46:13.997414
- Title: Truthful mechanisms for linear bandit games with private contexts
- Title(参考訳): プライベートコンテキストを持つ線形バンディットゲームに対する真理的メカニズム
- Authors: Yiting Hu, Lingjie Duan,
- Abstract要約: 多くの医療やレコメンデーションのアプリケーションでは、エージェントはプライベートなプロファイルを持ち、システムから得るためにコンテキストを誤レポートする可能性がある。
従来の低regretアルゴリズムは、真偽の報告を保証できず、最悪の場合、線形後悔をもたらす可能性があることを示す。
本稿では、線形プログラムを用いて、トンプソンサンプリングからの偏差を最小限に抑えつつ、真性を保証する機構を提案する。
- 参考スコア(独自算出の注目度): 16.35495567193046
- License:
- Abstract: The contextual bandit problem, where agents arrive sequentially with personal contexts and the system adapts its arm allocation decisions accordingly, has recently garnered increasing attention for enabling more personalized outcomes. However, in many healthcare and recommendation applications, agents have private profiles and may misreport their contexts to gain from the system. For example, in adaptive clinical trials, where hospitals sequentially recruit volunteers to test multiple new treatments and adjust plans based on volunteers' reported profiles such as symptoms and interim data, participants may misreport severe side effects like allergy and nausea to avoid perceived suboptimal treatments. We are the first to study this issue of private context misreporting in a stochastic contextual bandit game between the system and non-repeated agents. We show that traditional low-regret algorithms, such as UCB family algorithms and Thompson sampling, fail to ensure truthful reporting and can result in linear regret in the worst case, while traditional truthful algorithms like explore-then-commit (ETC) and $\epsilon$-greedy algorithm incur sublinear but high regret. We propose a mechanism that uses a linear program to ensure truthfulness while minimizing deviation from Thompson sampling, yielding an $O(\ln T)$ frequentist regret. Our numerical experiments further demonstrate strong performance in multiple contexts and across other distribution families.
- Abstract(参考訳): エージェントが個人の状況に応じて順次到着し、システムが腕の割り当て決定を適応するコンテキスト的盗聴問題は、最近、よりパーソナライズされた結果を可能にするために注目が集まっている。
しかし、多くの医療やレコメンデーションのアプリケーションでは、エージェントは個人のプロファイルを持ち、システムから取得したコンテキストを誤って報告する可能性がある。
例えば、アダプティブな臨床試験では、病院はボランティアに複数の新しい治療法を順次採用し、症状や中間データなどの報告されたプロファイルに基づいて計画を調整する。
我々は,システムと非反復エージェント間の確率的文脈的バンディットゲームにおいて,プライベートコンテキストの誤レポートに関するこの問題を最初に研究する。
UCBファミリーアルゴリズムやトンプソンサンプリングのような従来の低レグレットアルゴリズムは、真偽の報告を保証できず、最悪の場合、線形後悔を招きかねない一方で、探索-then-commit (ETC) や$\epsilon$-greedyアルゴリズムのような伝統的な真偽のアルゴリズムは、サブリニアだが、非常に後悔している。
本稿では、線形プログラムを用いて、トンプソンサンプリングからの偏差を最小限に抑えつつ、真性を保証する機構を提案し、繰り返し後悔する$O(\ln T)を生じる。
数値実験により、複数の状況において、および他の分布系において、強い性能を示す。
関連論文リスト
- Identifiable latent bandits: Combining observational data and exploration for personalized healthcare [7.731569068280131]
Banditのアルゴリズムは、パーソナライズされた意思決定を改善することを約束している。
ほとんどの健康アプリケーションでは、各患者に新しいバンディットを適合させることは不可能であり、観察可能な変数はしばしば最適な治療法を決定するのに不十分である。
潜伏帯域は、文脈変数が明らかにできる範囲を超えて、迅速な探索とパーソナライズの両方を提供する。
本稿では, 非線形独立成分分析に基づく帯域幅アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-23T07:26:38Z) - Adaptive Experimentation When You Can't Experiment [55.86593195947978]
本稿では,Emphcon founded the pure exploration transductive linear bandit (textttCPET-LB) problem。
オンラインサービスは、ユーザーを特定の治療にインセンティブを与える、適切にランダム化された励ましを利用することができる。
論文 参考訳(メタデータ) (2024-06-15T20:54:48Z) - Thompson sampling for zero-inflated count outcomes with an application to the Drink Less mobile health study [1.5936659933030128]
モバイルヘルス介入は、ジャスト・イン・タイム・アダプティブ・イン・タイム・イン・アダプティブ・介入によって近位結果の最適化によって、臨床症状などの遠位結果を改善することを目的としている。
コンテキストブレイディットは、個々の時間によって異なるコンテキストに応じて、そのような介入をカスタマイズするための適切なフレームワークを提供する。
現在の作業では、カウントデータモデルをオンライン意思決定アプローチに活用することで、この問題に対処している。
論文 参考訳(メタデータ) (2023-11-24T09:02:24Z) - Policy Optimization for Personalized Interventions in Behavioral Health [8.10897203067601]
デジタルプラットフォームを通じて提供される行動的健康介入は、健康結果を大幅に改善する可能性がある。
患者に対するパーソナライズされた介入を最適化して長期的効果を最大化する問題について検討した。
患者システムの状態空間を個別のレベルに分解するDecompPIをダブする新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T21:42:03Z) - Federated Offline Reinforcement Learning [55.326673977320574]
マルチサイトマルコフ決定プロセスモデルを提案する。
我々は,オフラインRLを対象とした最初のフェデレーション最適化アルゴリズムを設計する。
提案アルゴリズムでは,学習ポリシーの準最適性は,データが分散していないような速度に匹敵する,理論的保証を与える。
論文 参考訳(メタデータ) (2022-06-11T18:03:26Z) - Optimal Clustering with Bandit Feedback [57.672609011609886]
本稿では,バンディットフィードバックを用いたオンラインクラスタリングの問題点について考察する。
これは、NPハード重み付きクラスタリング問題をサブルーチンとして解決する必要性を回避するための、シーケンシャルなテストのための新しい停止規則を含む。
合成および実世界のデータセットの広範なシミュレーションを通して、BOCの性能は下界と一致し、非適応的ベースラインアルゴリズムよりも大幅に優れることを示す。
論文 参考訳(メタデータ) (2022-02-09T06:05:05Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - Generalized Linear Bandits with Local Differential Privacy [4.922800530841394]
パーソナライズドメディカルやオンライン広告などの多くのアプリケーションは、効果的な学習のために個人固有の情報を活用する必要がある。
これは、局所微分プライバシー(LDP)というプライバシーの厳格な概念を文脈的盗賊に導入する動機となっている。
本稿では,一般線形バンドレットに対するLDPアルゴリズムを設計し,非プライバシ設定と同じ後悔点を実現する。
論文 参考訳(メタデータ) (2021-06-07T06:42:00Z) - DTR Bandit: Learning to Make Response-Adaptive Decisions With Low Regret [59.81290762273153]
動的治療体制 (DTR) はパーソナライズされ適応された多段階の治療計画であり、治療決定を個人の初期特徴に適応させ、その後の各段階における中間結果と特徴に適応させる。
本稿では,探索と搾取を慎重にバランスさせることで,遷移モデルと報酬モデルが線形である場合に,速度-最適後悔を実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T13:03:42Z) - A General Theory of the Stochastic Linear Bandit and Its Applications [8.071506311915398]
本稿では,線形バンディット問題に対する一般解析フレームワークとアルゴリズム群を紹介する。
予測における最適化という新たな概念は、OFULの過剰探索問題を減少させるSieeved greedy(SG)と呼ばれる新しいアルゴリズムを生み出します。
SGが理論的に最適であることを示すことに加えて、実験シミュレーションにより、SGはgreedy、OFUL、TSといった既存のベンチマークよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z) - Adversarial Attacks on Linear Contextual Bandits [87.08004581867537]
悪意のあるエージェントは、望ましい行動を実行するためにバンディットアルゴリズムを攻撃するインセンティブを持つ可能性がある。
悪意のあるエージェントは、線形コンテキストのバンドイットアルゴリズムに任意のアーム$T - o(T)$倍を$T$ステップで引き出すように強制することができる。
また,悪意のあるエージェントが単一コンテキストにおける帯域幅アルゴリズムの動作に影響を与えることに関心がある場合についても検討する。
論文 参考訳(メタデータ) (2020-02-10T15:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。