論文の概要: A Decision-Language Model (DLM) for Dynamic Restless Multi-Armed Bandit
Tasks in Public Health
- arxiv url: http://arxiv.org/abs/2402.14807v2
- Date: Fri, 23 Feb 2024 22:17:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 11:45:23.881569
- Title: A Decision-Language Model (DLM) for Dynamic Restless Multi-Armed Bandit
Tasks in Public Health
- Title(参考訳): 公共衛生における動的レスト・マルチアーム・バンドタスクのための意思決定モデル(DLM)
- Authors: Nikhil Behari, Edwin Zhang, Yunfan Zhao, Aparna Taneja, Dheeraj
Nagaraj, Milind Tambe
- Abstract要約: DLM:less multi-armed bandit (RMAB)のための決定言語モデルを提案する。
DLMは、人間の言語コマンドのみを入力として、ポリシー結果を動的に形成できることを示す。
- 参考スコア(独自算出の注目度): 31.676673158526786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efforts to reduce maternal mortality rate, a key UN Sustainable Development
target (SDG Target 3.1), rely largely on preventative care programs to spread
critical health information to high-risk populations. These programs face two
important challenges: efficiently allocating limited health resources to large
beneficiary populations, and adapting to evolving policy priorities. While
prior works in restless multi-armed bandit (RMAB) demonstrated success in
public health allocation tasks, they lack flexibility to adapt to evolving
policy priorities. Concurrently, Large Language Models (LLMs) have emerged as
adept, automated planners in various domains, including robotic control and
navigation. In this paper, we propose DLM: a Decision Language Model for RMABs.
To enable dynamic fine-tuning of RMAB policies for challenging public health
settings using human-language commands, we propose using LLMs as automated
planners to (1) interpret human policy preference prompts, (2) propose code
reward functions for a multi-agent RL environment for RMABs, and (3) iterate on
the generated reward using feedback from RMAB simulations to effectively adapt
policy outcomes. In collaboration with ARMMAN, an India-based public health
organization promoting preventative care for pregnant mothers, we conduct a
simulation study, showing DLM can dynamically shape policy outcomes using only
human language commands as input.
- Abstract(参考訳): 主要な持続可能な開発目標(sdgターゲット3.1)である母子死亡率を下げる努力は、リスクの高い人口に重要な健康情報を広めるための予防医療プログラムに大きく依存している。
これらのプログラムは2つの重要な課題に直面している: 限られた医療資源を大規模な受益者に効率的に割り当てること、そして政策の優先順位を進化させること。
RMAB(Stepless multi-armed bandit)における以前の研究は、公衆衛生割り当てタスクの成功を示したが、進化する政策優先順位に適応する柔軟性に欠けていた。
同時に、ロボット制御やナビゲーションなど、さまざまな領域において、大規模言語モデル(llm)が適切な自動プランナーとして登場した。
本稿では,RMABのための決定言語モデルDLMを提案する。
ヒトの言語コマンドを使って公衆衛生設定に挑戦するRMABポリシーの動的微調整を可能にするため、LLMを自動プランナーとして使用し、(1)人間の政策優先のプロンプトを解釈し、(2)RMABのためのマルチエージェントRL環境のためのコード報酬関数を提案し、(3)RMABシミュレーションのフィードバックを用いて生成された報酬を反復して政策成果を効果的に適応させる。
インドを拠点とする公衆衛生機関ARMMANと共同で妊婦の予防ケアを奨励するシミュレーションを行い、DLMが人間の言語コマンドのみを入力として政策成果を動的に形成できることを示す。
関連論文リスト
- Balancing Act: Prioritization Strategies for LLM-Designed Restless Bandit Rewards [41.140822259857266]
本稿では,人選好に基づく報酬関数のトレードオフを扱うための社会選択言語モデルを提案する。
実験により、我々のモデルはより効果的で、整合性があり、バランスの取れた報酬関数を確実に選択できることを示した。
論文 参考訳(メタデータ) (2024-08-22T03:54:08Z) - Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts [23.27203570485055]
人からのフィードバックから強化学習(RLHF)が,大規模言語モデルと人間の嗜好を整合させる主要な手法として登場した。
多次元絶対値データを用いて報酬モデル(RM)を訓練するための2段階の手法を提案する。
我々は、Llama-3 8BでArmoRMを効率よく訓練し、ArmoRMの上部の浅い部分からなるゲーティングネットワークを構築した。
論文 参考訳(メタデータ) (2024-06-18T17:58:28Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。
最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文 参考訳(メタデータ) (2024-01-22T18:27:08Z) - Personalized Reinforcement Learning with a Budget of Policies [9.846353643883443]
機械学習(ML)におけるパーソナライゼーションは、ユーザの個々の特性に対する決定をモデル化する。
本稿では,Markov Decision Processes (r-MDPs) に代表される新しいフレームワークを提案する。
r-MDPでは、少数の代表ポリシーとのインタラクションを通じて、それぞれ独自の嗜好を持つ多様なユーザ人口に対応する。
r-MDPを効率的に解くための2つの深層強化学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-01-12T11:27:55Z) - Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Guide Your Agent with Adaptive Multimodal Rewards [107.08768813632032]
本研究は、エージェントの一般化能力を高めるための効率的なフレームワークであるアダプティブリターン条件付きポリシー(ARP)を提示する。
我々のキーとなる考え方は、事前訓練されたマルチモーダル埋め込み空間における視覚観察と自然言語命令の類似性を計算することである。
マルチモーダル報酬は各タイミングで適応的な信号を提供するので、ARPはゴールの一般化を効果的に軽減する。
論文 参考訳(メタデータ) (2023-09-19T17:39:20Z) - Equitable Restless Multi-Armed Bandits: A General Framework Inspired By
Digital Health [23.762981395335217]
Restless Multi-armed Bandits (RMAB) は、限られたリソースを持つシーケンシャルな設定でアルゴリズムによる意思決定を行う一般的なフレームワークである。
RMABは、公衆衛生、治療スケジュール、密猟、そしてこの仕事の動機であるデジタル健康などの繊細な決定にますます使われています。
我々は、RMABの公平な目標を初めて検討し、公平性文学、ミニマックス報酬、最大ナッシュ福祉の2つの目標について考察する。
我々は,前者に対する水充填アルゴリズムと,異なる群の大きさのバランスをとるための理論的動機付けされたニュアンスをもつグリーディアルゴリズムをそれぞれ解くための効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-08-17T13:00:27Z) - Limited Resource Allocation in a Non-Markovian World: The Case of
Maternal and Child Healthcare [27.812174610119452]
低リソース環境におけるスケジューリング介入の問題点を考察し,順応性やエンゲージメントを高めることを目的とする。
過去の研究は、この問題に対する数種類のRestless Multi-armed Bandit (RMAB) ベースのソリューションの開発に成功している。
我々のパートナーであるNGO ARMMAN の母体健康意識プログラムにおける実世界データに対する Markov の仮定から大きく逸脱した。
一般化された非マルコフ的RMAB設定に取り組むために、(i)各参加者の軌跡を時系列としてモデル化し、(ii)時系列予測モデルのパワーを利用して将来の状態を予測し、(iii)時間を提案する。
論文 参考訳(メタデータ) (2023-05-22T02:26:29Z) - Is Reinforcement Learning (Not) for Natural Language Processing?:
Benchmarks, Baselines, and Building Blocks for Natural Language Policy
Optimization [73.74371798168642]
我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。
次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。
最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:38:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。