論文の概要: A Decision-Language Model (DLM) for Dynamic Restless Multi-Armed Bandit
Tasks in Public Health
- arxiv url: http://arxiv.org/abs/2402.14807v2
- Date: Fri, 23 Feb 2024 22:17:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 11:45:23.881569
- Title: A Decision-Language Model (DLM) for Dynamic Restless Multi-Armed Bandit
Tasks in Public Health
- Title(参考訳): 公共衛生における動的レスト・マルチアーム・バンドタスクのための意思決定モデル(DLM)
- Authors: Nikhil Behari, Edwin Zhang, Yunfan Zhao, Aparna Taneja, Dheeraj
Nagaraj, Milind Tambe
- Abstract要約: DLM:less multi-armed bandit (RMAB)のための決定言語モデルを提案する。
DLMは、人間の言語コマンドのみを入力として、ポリシー結果を動的に形成できることを示す。
- 参考スコア(独自算出の注目度): 31.676673158526786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efforts to reduce maternal mortality rate, a key UN Sustainable Development
target (SDG Target 3.1), rely largely on preventative care programs to spread
critical health information to high-risk populations. These programs face two
important challenges: efficiently allocating limited health resources to large
beneficiary populations, and adapting to evolving policy priorities. While
prior works in restless multi-armed bandit (RMAB) demonstrated success in
public health allocation tasks, they lack flexibility to adapt to evolving
policy priorities. Concurrently, Large Language Models (LLMs) have emerged as
adept, automated planners in various domains, including robotic control and
navigation. In this paper, we propose DLM: a Decision Language Model for RMABs.
To enable dynamic fine-tuning of RMAB policies for challenging public health
settings using human-language commands, we propose using LLMs as automated
planners to (1) interpret human policy preference prompts, (2) propose code
reward functions for a multi-agent RL environment for RMABs, and (3) iterate on
the generated reward using feedback from RMAB simulations to effectively adapt
policy outcomes. In collaboration with ARMMAN, an India-based public health
organization promoting preventative care for pregnant mothers, we conduct a
simulation study, showing DLM can dynamically shape policy outcomes using only
human language commands as input.
- Abstract(参考訳): 主要な持続可能な開発目標(sdgターゲット3.1)である母子死亡率を下げる努力は、リスクの高い人口に重要な健康情報を広めるための予防医療プログラムに大きく依存している。
これらのプログラムは2つの重要な課題に直面している: 限られた医療資源を大規模な受益者に効率的に割り当てること、そして政策の優先順位を進化させること。
RMAB(Stepless multi-armed bandit)における以前の研究は、公衆衛生割り当てタスクの成功を示したが、進化する政策優先順位に適応する柔軟性に欠けていた。
同時に、ロボット制御やナビゲーションなど、さまざまな領域において、大規模言語モデル(llm)が適切な自動プランナーとして登場した。
本稿では,RMABのための決定言語モデルDLMを提案する。
ヒトの言語コマンドを使って公衆衛生設定に挑戦するRMABポリシーの動的微調整を可能にするため、LLMを自動プランナーとして使用し、(1)人間の政策優先のプロンプトを解釈し、(2)RMABのためのマルチエージェントRL環境のためのコード報酬関数を提案し、(3)RMABシミュレーションのフィードバックを用いて生成された報酬を反復して政策成果を効果的に適応させる。
インドを拠点とする公衆衛生機関ARMMANと共同で妊婦の予防ケアを奨励するシミュレーションを行い、DLMが人間の言語コマンドのみを入力として政策成果を動的に形成できることを示す。
関連論文リスト
- How Can Large Language Models Enable Better Socially Assistive Human-Robot Interaction: A Brief Survey [0.478870181148207]
社会的支援ロボット (SAR) は, 特別なニーズのある利用者に対して, 個人化された認知効果のある支援を提供することで大きな成功を収めている。
大規模言語モデル(LLM)の最近の進歩により、SARの分野における新しい応用の可能性が高まっている。
論文 参考訳(メタデータ) (2024-04-01T05:50:56Z) - Efficient Public Health Intervention Planning Using Decomposition-Based
Decision-Focused Learning [33.14258196945301]
介入計画の高速化のために、レスレスマルチアーマッドバンド(RMAB)の構造を利用する方法を示す。
私たちはインドのNGOであるARMMANの実際のデータを使って、我々のアプローチが最先端のアプローチよりも最大2桁高速であることを示す。
論文 参考訳(メタデータ) (2024-03-08T21:31:00Z) - Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。
最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文 参考訳(メタデータ) (2024-01-22T18:27:08Z) - EHRAgent: Code Empowers Large Language Models for Few-shot Complex
Tabular Reasoning on Electronic Health Records [48.9788858020623]
大規模言語モデル(LLM)は、計画とツールの利用において例外的な能力を示した。
コードインタフェースを備えたLLMエージェントであるEHRAgentを提案し,マルチタブラル推論のためのコードの自動生成と実行を行う。
論文 参考訳(メタデータ) (2024-01-13T18:09:05Z) - Personalized Reinforcement Learning with a Budget of Policies [9.846353643883443]
機械学習(ML)におけるパーソナライゼーションは、ユーザの個々の特性に対する決定をモデル化する。
本稿では,Markov Decision Processes (r-MDPs) に代表される新しいフレームワークを提案する。
r-MDPでは、少数の代表ポリシーとのインタラクションを通じて、それぞれ独自の嗜好を持つ多様なユーザ人口に対応する。
r-MDPを効率的に解くための2つの深層強化学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-01-12T11:27:55Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。
人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。
本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2023-07-11T01:55:24Z) - Limited Resource Allocation in a Non-Markovian World: The Case of
Maternal and Child Healthcare [27.812174610119452]
低リソース環境におけるスケジューリング介入の問題点を考察し,順応性やエンゲージメントを高めることを目的とする。
過去の研究は、この問題に対する数種類のRestless Multi-armed Bandit (RMAB) ベースのソリューションの開発に成功している。
我々のパートナーであるNGO ARMMAN の母体健康意識プログラムにおける実世界データに対する Markov の仮定から大きく逸脱した。
一般化された非マルコフ的RMAB設定に取り組むために、(i)各参加者の軌跡を時系列としてモデル化し、(ii)時系列予測モデルのパワーを利用して将来の状態を予測し、(iii)時間を提案する。
論文 参考訳(メタデータ) (2023-05-22T02:26:29Z) - Multi-Objective Model-based Reinforcement Learning for Infectious
Disease Control [19.022696762983017]
新型コロナウイルス(COVID-19)などの重症感染症が公衆衛生に大きな脅威をもたらす。
学校閉鎖や自宅待機命令などの厳格な規制措置は大きな効果がある一方で、経済的損失も大きい。
本稿では,データ駆動型意思決定の促進と長期的コストの最小化を目的とした多目的モデルに基づく強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-09T23:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。