論文の概要: A Decision-Language Model (DLM) for Dynamic Restless Multi-Armed Bandit Tasks in Public Health
- arxiv url: http://arxiv.org/abs/2402.14807v4
- Date: Fri, 25 Oct 2024 13:34:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:34:50.633357
- Title: A Decision-Language Model (DLM) for Dynamic Restless Multi-Armed Bandit Tasks in Public Health
- Title(参考訳): 公共衛生における動的レスト・マルチアーム・バンディット・タスクのための意思決定言語モデル(DLM)
- Authors: Nikhil Behari, Edwin Zhang, Yunfan Zhao, Aparna Taneja, Dheeraj Nagaraj, Milind Tambe,
- Abstract要約: 大規模言語モデル(LLM)は、ロボット制御とナビゲーションの領域にまたがる包括的な自動プランナーとして登場した。
本稿では,RMAB ポリシーを動的に微調整する RMAB のための決定言語モデル (DLM) を提案する。
- 参考スコア(独自算出の注目度): 29.894488663882328
- License:
- Abstract: Restless multi-armed bandits (RMAB) have demonstrated success in optimizing resource allocation for large beneficiary populations in public health settings. Unfortunately, RMAB models lack flexibility to adapt to evolving public health policy priorities. Concurrently, Large Language Models (LLMs) have emerged as adept automated planners across domains of robotic control and navigation. In this paper, we propose a Decision Language Model (DLM) for RMABs, enabling dynamic fine-tuning of RMAB policies in public health settings using human-language commands. We propose using LLMs as automated planners to (1) interpret human policy preference prompts, (2) propose reward functions as code for a multi-agent RMAB environment, and (3) iterate on the generated reward functions using feedback from grounded RMAB simulations. We illustrate the application of DLM in collaboration with ARMMAN, an India-based non-profit promoting preventative care for pregnant mothers, that currently relies on RMAB policies to optimally allocate health worker calls to low-resource populations. We conduct a technology demonstration in simulation using the Gemini Pro model, showing DLM can dynamically shape policy outcomes using only human prompts as input.
- Abstract(参考訳): レストレス・マルチアーム・バンディット(RMAB)は、公衆衛生における大規模受益者に対する資源配分の最適化に成功している。
残念ながらRMABモデルは、公衆衛生政策の進化に適応する柔軟性に欠けています。
同時に、Large Language Models (LLMs) はロボット制御とナビゲーションの領域にまたがる自動プランナーとして登場した。
本稿では,RMAB に対する決定言語モデル (DLM) を提案する。
LLMを自動プランナーとして用いて、(1)人間の政策選好のプロンプトを解釈し、(2)マルチエージェントRMAB環境のコードとして報酬関数を提案し、(3)基底RMABシミュレーションからのフィードバックを用いて報酬関数を反復する。
インドを拠点とする非営利団体ARMMANと共同で、妊娠中の母親の予防ケアを推進しているDLMの適用について説明する。
我々は,ジェミニ・プロモデルを用いてシミュレーションを行い,人間のプロンプトのみを入力として,DLMが動的に政策成果を形作ることができることを示す。
関連論文リスト
- Balancing Act: Prioritization Strategies for LLM-Designed Restless Bandit Rewards [41.140822259857266]
本稿では,人選好に基づく報酬関数のトレードオフを扱うための社会選択言語モデルを提案する。
実験により、我々のモデルはより効果的で、整合性があり、バランスの取れた報酬関数を確実に選択できることを示した。
論文 参考訳(メタデータ) (2024-08-22T03:54:08Z) - Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts [23.27203570485055]
人からのフィードバックから強化学習(RLHF)が,大規模言語モデルと人間の嗜好を整合させる主要な手法として登場した。
多次元絶対値データを用いて報酬モデル(RM)を訓練するための2段階の手法を提案する。
我々は、Llama-3 8BでArmoRMを効率よく訓練し、ArmoRMの上部の浅い部分からなるゲーティングネットワークを構築した。
論文 参考訳(メタデータ) (2024-06-18T17:58:28Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - WARM: On the Benefits of Weight Averaged Reward Models [63.08179139233774]
Weight Averaged Reward Models (WARM) を提案する。
最良N法とRL法を用いた要約タスクの実験は、WARMがLLM予測の全体的な品質とアライメントを改善することを示す。
論文 参考訳(メタデータ) (2024-01-22T18:27:08Z) - Personalized Reinforcement Learning with a Budget of Policies [9.846353643883443]
機械学習(ML)におけるパーソナライゼーションは、ユーザの個々の特性に対する決定をモデル化する。
本稿では,Markov Decision Processes (r-MDPs) に代表される新しいフレームワークを提案する。
r-MDPでは、少数の代表ポリシーとのインタラクションを通じて、それぞれ独自の嗜好を持つ多様なユーザ人口に対応する。
r-MDPを効率的に解くための2つの深層強化学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-01-12T11:27:55Z) - Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Guide Your Agent with Adaptive Multimodal Rewards [107.08768813632032]
本研究は、エージェントの一般化能力を高めるための効率的なフレームワークであるアダプティブリターン条件付きポリシー(ARP)を提示する。
我々のキーとなる考え方は、事前訓練されたマルチモーダル埋め込み空間における視覚観察と自然言語命令の類似性を計算することである。
マルチモーダル報酬は各タイミングで適応的な信号を提供するので、ARPはゴールの一般化を効果的に軽減する。
論文 参考訳(メタデータ) (2023-09-19T17:39:20Z) - Equitable Restless Multi-Armed Bandits: A General Framework Inspired By
Digital Health [23.762981395335217]
Restless Multi-armed Bandits (RMAB) は、限られたリソースを持つシーケンシャルな設定でアルゴリズムによる意思決定を行う一般的なフレームワークである。
RMABは、公衆衛生、治療スケジュール、密猟、そしてこの仕事の動機であるデジタル健康などの繊細な決定にますます使われています。
我々は、RMABの公平な目標を初めて検討し、公平性文学、ミニマックス報酬、最大ナッシュ福祉の2つの目標について考察する。
我々は,前者に対する水充填アルゴリズムと,異なる群の大きさのバランスをとるための理論的動機付けされたニュアンスをもつグリーディアルゴリズムをそれぞれ解くための効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-08-17T13:00:27Z) - Limited Resource Allocation in a Non-Markovian World: The Case of
Maternal and Child Healthcare [27.812174610119452]
低リソース環境におけるスケジューリング介入の問題点を考察し,順応性やエンゲージメントを高めることを目的とする。
過去の研究は、この問題に対する数種類のRestless Multi-armed Bandit (RMAB) ベースのソリューションの開発に成功している。
我々のパートナーであるNGO ARMMAN の母体健康意識プログラムにおける実世界データに対する Markov の仮定から大きく逸脱した。
一般化された非マルコフ的RMAB設定に取り組むために、(i)各参加者の軌跡を時系列としてモデル化し、(ii)時系列予測モデルのパワーを利用して将来の状態を予測し、(iii)時間を提案する。
論文 参考訳(メタデータ) (2023-05-22T02:26:29Z) - Is Reinforcement Learning (Not) for Natural Language Processing?:
Benchmarks, Baselines, and Building Blocks for Natural Language Policy
Optimization [73.74371798168642]
我々は、強化学習による言語生成を最適化するためのオープンソースのモジュールライブラリRL4LMを紹介する。
次に、ターゲット文字列ではなく、報酬関数によって教師される6つの言語生成タスクのセットであるGRUEベンチマークを示す。
最後に,言語生成における動作空間を効果的に削減するNLPOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:38:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。