Fugu-MT 論文翻訳(概要): Equitable Restless Multi-Armed Bandits: A General Framework Inspired By Digital Health

論文の概要: Equitable Restless Multi-Armed Bandits: A General Framework Inspired By Digital Health

arxiv url: http://arxiv.org/abs/2308.09726v1
Date: Thu, 17 Aug 2023 13:00:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-22 20:20:04.774980
Title: Equitable Restless Multi-Armed Bandits: A General Framework Inspired By Digital Health
Title（参考訳）: Equitable Restless Multi-Armed Bandits:デジタルヘルスに触発された一般的なフレームワーク
Authors: Jackson A. Killian, Manish Jain, Yugang Jia, Jonathan Amar, Erich Huang, Milind Tambe
Abstract要約: Restless Multi-armed Bandits (RMAB) は、限られたリソースを持つシーケンシャルな設定でアルゴリズムによる意思決定を行う一般的なフレームワークである。 RMABは、公衆衛生、治療スケジュール、密猟、そしてこの仕事の動機であるデジタル健康などの繊細な決定にますます使われています。我々は、RMABの公平な目標を初めて検討し、公平性文学、ミニマックス報酬、最大ナッシュ福祉の2つの目標について考察する。我々は,前者に対する水充填アルゴリズムと,異なる群の大きさのバランスをとるための理論的動機付けされたニュアンスをもつグリーディアルゴリズムをそれぞれ解くための効率的なアルゴリズムを開発した。
参考スコア（独自算出の注目度）: 23.762981395335217
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Restless multi-armed bandits (RMABs) are a popular framework for algorithmic decision making in sequential settings with limited resources. RMABs are increasingly being used for sensitive decisions such as in public health, treatment scheduling, anti-poaching, and -- the motivation for this work -- digital health. For such high stakes settings, decisions must both improve outcomes and prevent disparities between groups (e.g., ensure health equity). We study equitable objectives for RMABs (ERMABs) for the first time. We consider two equity-aligned objectives from the fairness literature, minimax reward and max Nash welfare. We develop efficient algorithms for solving each -- a water filling algorithm for the former, and a greedy algorithm with theoretically motivated nuance to balance disparate group sizes for the latter. Finally, we demonstrate across three simulation domains, including a new digital health model, that our approaches can be multiple times more equitable than the current state of the art without drastic sacrifices to utility. Our findings underscore our work's urgency as RMABs permeate into systems that impact human and wildlife outcomes. Code is available at https://github.com/google-research/socialgood/tree/equitable-rmab
Abstract（参考訳）: Restless Multi-armed Bandits (RMAB) は、限られたリソースを持つシーケンシャルな設定でアルゴリズムによる意思決定を行う一般的なフレームワークである。 RMABは、公衆衛生、治療スケジュール、密猟、そしてこの仕事の動機であるデジタル健康などの繊細な決定にますます使われています。このような高い利害関係のために、意思決定は結果を改善し、グループ間の格差(例えば、健康的株式の確保)を防ぐ必要がある。 RMAB(ERMAB)の適正な目標を初めて検討した。フェアネス文学、ミニマックス報酬、最大ナッシュ福祉の2つの目標について検討する。我々は,それぞれを解決するための効率的なアルゴリズム -- 前者の水充填アルゴリズムと,後者の異なるグループサイズのバランスをとるために理論的に動機づけられたニュアンスを持つ欲張りなアルゴリズムを開発した。最後に、新しいデジタルヘルスモデルを含む3つのシミュレーション領域にまたがって、我々のアプローチは、実用性に対する犠牲を伴わずに、現在の最先端技術の何倍も公平であることを示す。 rmabsが人間と野生生物の成果に影響を与えるシステムに浸透するにつれ、我々の研究の緊急性が強調される。コードはhttps://github.com/google-research/socialgood/tree/equitable-rmabで入手できる。

関連論文リスト

Optimal Multi-Objective Best Arm Identification with Fixed Confidence [62.36929749450298]
我々は、各アームが選択時にM$Dのベクトル報酬を得られる多腕バンディット設定を考える。最終的なゴールは、最も短い(予想される)時間において、エラーの確率の上限に従属する全ての目的の最良のアームを特定することである。本稿では,各ステップでアームをサンプリングするために,エミュロゲート比例という新しいアイデアを用いたアルゴリズムを提案し,各ステップにおける最大最小最適化問題を解く必要をなくした。
論文参考訳（メタデータ） (2025-01-23T12:28:09Z)
IRL for Restless Multi-Armed Bandits with Applications in Maternal and Child Health [52.79219652923714]
本論文は,RMABに対する所望の報酬を学習するために,逆強化学習(IRL)を用いた最初の事例である。本研究は,母子保健遠隔医療プログラムにおける改善された成果を示すものである。
論文参考訳（メタデータ） (2024-12-11T15:28:04Z)
A Decision-Language Model (DLM) for Dynamic Restless Multi-Armed Bandit Tasks in Public Health [29.894488663882328]
大規模言語モデル(LLM)は、ロボット制御とナビゲーションの領域にまたがる包括的な自動プランナーとして登場した。本稿では,RMAB ポリシーを動的に微調整する RMAB のための決定言語モデル (DLM) を提案する。
論文参考訳（メタデータ） (2024-02-22T18:58:27Z)
Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits with Strategic Agents [52.75161794035767]
性能インセンティブとロバストネスの2つの目的を同時に満たすバンディットアルゴリズムのクラスを導入する。そこで本研究では,第2価格オークションのアイデアをアルゴリズムと組み合わせることで,プリンシパルが腕の性能特性に関する情報を持たないような設定が可能であることを示す。
論文参考訳（メタデータ） (2023-12-13T06:54:49Z)
Fixed-Budget Real-Valued Combinatorial Pure Exploration of Multi-Armed Bandit [65.268245109828]
このアルゴリズムは,アクションクラスのサイズが指数関数的に大きい場合でも,最良のアクションを識別できる最初のアルゴリズムである。 CSAアルゴリズムの誤差確率の上限は指数の対数係数までの下界と一致することを示す。提案手法を従来手法と実験的に比較し,アルゴリズムの性能が向上したことを示す。
論文参考訳（メタデータ） (2023-10-24T09:47:32Z)
Towards Soft Fairness in Restless Multi-Armed Bandits [8.140037969280716]
Restless Multi-armed bandits (RMAB)は、限られた資源を不確実性の下で割り当てるためのフレームワークである。個人・地域・コミュニティ間の介入による飢餓を避けるため、まずソフトフェアネス制約を提供する。次に、RMABのソフトフェアネス制約を強制するアプローチを提案する。
論文参考訳（メタデータ） (2022-07-27T07:56:32Z)
Efficient Resource Allocation with Fairness Constraints in Restless Multi-Armed Bandits [8.140037969280716]
Restless Multi-Armed Bandits (RMAB)は、公衆衛生介入における意思決定問題を表現するための適応モデルである。本稿では,RMAB意思決定が期待値の最大化を図りつつ,異なるアームに対して公平であることを保証することに関心がある。
論文参考訳（メタデータ） (2022-06-08T13:28:29Z)
Best Arm Identification under Additive Transfer Bandits [49.69203462561861]
提案手法は, 未知であるにもかかわらず, ソースとターゲットMABインスタンスの間には, 付加的な関係があることが知られている。本稿では,LUCBスタイルのアルゴリズムを理論的に解析し,高い確率で$epsilon$-optimal target armを同定する。
論文参考訳（メタデータ） (2021-12-08T02:20:18Z)
Mean-based Best Arm Identification in Stochastic Bandits under Reward Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文参考訳（メタデータ） (2021-11-14T21:49:58Z)
Achieving the Pareto Frontier of Regret Minimization and Best Arm Identification in Multi-Armed Bandits [91.8283876874947]
本稿では,BoBW-lil'UCB$(gamma)$アルゴリズムの設計と解析を行う。 i) RMとBAIの両方の目的に対して最適なアルゴリズムを同時に実行できないことを示す。また、BoBW-lil'UCB$(gamma)$は、時間複雑性と後悔の点で競合よりも優れていることを示す。
論文参考訳（メタデータ） (2021-10-16T17:52:32Z)
Reinforcement Learning for Finite-Horizon Restless Multi-Armed Multi-Action Bandits [8.136957953239254]
本稿では、R(MA)2Bと呼ばれる複数の動作を持つ有限ホライゾンレス・マルチアームバンディット問題について検討する。各アームの状態は、制御されたマルコフ決定プロセス(MDP)に従って進化し、アームを引く報酬は、対応するMDPの現在の状態と、取られたアクションの両方に依存する。最適政策の発見は典型的には難解であるため,我々はOccupancy-Measured-Reward Index Policyと呼ぶ,計算に訴える指標ポリシーを提案する。
論文参考訳（メタデータ） (2021-09-20T21:40:12Z)
Efficient Algorithms for Finite Horizon and Streaming Restless Multi-Armed Bandit Problems [30.759279275710078]
インデックスベースのソリューションを計算するための新しいスケーラブルなアプローチを提案します。コストのかかる有限地平線問題を解くことなく,指数減衰をキャプチャするアルゴリズムを提供する。当社のアルゴリズムは、これらのタスクにおける既存の方法よりも150倍以上のスピードアップを実現し、パフォーマンスを損ないません。
論文参考訳（メタデータ） (2021-03-08T13:10:31Z)
Batched Neural Bandits [107.5072688105936]
BatchNeuralUCBはニューラルネットワークと楽観性を組み合わせ、探索と探索のトレードオフに対処する。 BatchNeuralUCBは、完全なシーケンシャルバージョンと同じ後悔を達成しつつ、ポリシー更新の数を大幅に減らしています。
論文参考訳（メタデータ） (2021-02-25T17:36:44Z)
Corralling Stochastic Bandit Algorithms [54.10645564702416]
相関アルゴリズムの後悔は、最も報酬の高い腕を含む最高のアルゴリズムの後悔よりも悪くはないことを示す。最高報酬と他の報酬の差は、最高報酬と他の報酬の差に依存することを示す。
論文参考訳（メタデータ） (2020-06-16T15:33:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。