論文の概要: Can LLMs Help Allocate Public Health Resources? A Case Study on Childhood Lead Testing
- arxiv url: http://arxiv.org/abs/2511.18239v1
- Date: Sun, 23 Nov 2025 00:54:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.714042
- Title: Can LLMs Help Allocate Public Health Resources? A Case Study on Childhood Lead Testing
- Title(参考訳): LLMは公衆衛生資源のアロケートに有効か? : 小児鉛検査を事例として
- Authors: Mohamed Afane, Ying Wang, Juntao Chen,
- Abstract要約: プライオリティ・スコアは、未検査児の割合、血中鉛濃度の上昇、公衆衛生に関するパターンを統合している。
我々は,シカゴ,ニューヨーク,ワシントンD.C.の136地区における資源配分決定の最適化を支援するために,これらの割り当てタスクを活用している。
エージェント推論と深層研究能力を備えた大規模言語モデルが公衆衛生資源を効果的に配分できるかどうかを評価する。
- 参考スコア(独自算出の注目度): 6.53953934612787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Public health agencies face critical challenges in identifying high-risk neighborhoods for childhood lead exposure with limited resources for outreach and intervention programs. To address this, we develop a Priority Score integrating untested children proportions, elevated blood lead prevalence, and public health coverage patterns to support optimized resource allocation decisions across 136 neighborhoods in Chicago, New York City, and Washington, D.C. We leverage these allocation tasks, which require integrating multiple vulnerability indicators and interpreting empirical evidence, to evaluate whether large language models (LLMs) with agentic reasoning and deep research capabilities can effectively allocate public health resources when presented with structured allocation scenarios. LLMs were tasked with distributing 1,000 test kits within each city based on neighborhood vulnerability indicators. Results reveal significant limitations: LLMs frequently overlooked neighborhoods with highest lead prevalence and largest proportions of untested children, such as West Englewood in Chicago, while allocating disproportionate resources to lower-priority areas like Hunts Point in New York City. Overall accuracy averaged 0.46, reaching a maximum of 0.66 with ChatGPT 5 Deep Research. Despite their marketed deep research capabilities, LLMs struggled with fundamental limitations in information retrieval and evidence-based reasoning, frequently citing outdated data and allowing non-empirical narratives about neighborhood conditions to override quantitative vulnerability indicators.
- Abstract(参考訳): 公衆衛生機関は、小児の鉛曝露のリスクの高い地区を、アウトリーチや介入プログラムの限られた資源で特定する上で、重大な課題に直面している。
そこで我々は,シカゴ,ニューヨーク市,ワシントンD.C.の136地区における資源配分決定の最適化を支援するために,未検査児の割合,血中鉛濃度の上昇,公衆衛生に関するパターンを統合したプライオリティスコアを開発し,複数の脆弱性指標の統合と実証的証拠の解釈を必要とするこれらのアロケーションタスクを活用し,エージェント的推論による大規模言語モデル(LLM)が,構造化されたアロケーションシナリオで提示された場合,公衆衛生資源を効果的に割り当てることができるかどうかを評価する。
LLMは、近隣の脆弱性指標に基づいて、各都市に1000の試験キットを配布する任務を負った。
LLMはシカゴのウェスト・エングルウッド(英語版)など未試験の子供の割合が最大であり、またニューヨーク市のハンツポイント(英語版)のような低優先度地域(英語版)に不均等な資源を割り当てている。
全体の精度は平均0.46で、ChatGPT 5 Deep Researchで最大0.66に達した。
市場の深い研究能力にもかかわらず、LSMは情報検索と証拠に基づく推論の基本的な限界に悩まされ、時代遅れのデータを引き合いに出し、近隣の条件に関する経験的でない物語を定量的な脆弱性指標をオーバーライドさせることができた。
関連論文リスト
- Analyzing and Optimizing the Distribution of Blood Lead Level Testing for Children in New York City: A Data-Driven Approach [5.586191108738563]
本研究は,2005年から2021年までのニューヨーク市の42地区で6歳未満の小児の血中鉛濃度(BLL)を測定した。
市全体でのBLL率の低下にもかかわらず、地区レベルでの格差は持続し、公式報告書には触れられていない。
論文 参考訳(メタデータ) (2025-11-23T03:27:13Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Can Large Language Models Help Experimental Design for Causal Discovery? [94.66802142727883]
Large Language Model Guided Intervention Targeting (LeGIT) は、LLMを効果的に組み込んだ堅牢なフレームワークであり、因果発見のための介入のための既存の数値的アプローチを強化する。
LeGITは、既存の方法よりも大幅な改善と堅牢性を示し、人間を超越している。
論文 参考訳(メタデータ) (2025-03-03T03:43:05Z) - Unveiling Performance Challenges of Large Language Models in Low-Resource Healthcare: A Demographic Fairness Perspective [7.1047384702030625]
我々は、6つの多様な医療タスクにまたがる3つの一般的な学習フレームワークを用いて、最先端の大規模言語モデル(LLM)を評価した。
LLMを現実の医療タスクに適用する上での重大な課題と、人口統計群全体での永続的公平性の問題を見出した。
論文 参考訳(メタデータ) (2024-11-30T18:52:30Z) - Mitigating the Risk of Health Inequity Exacerbated by Large Language Models [5.02540629164568]
大規模言語モデルの入力に非決定的な社会デマトグラフィー要素を組み込むことは、誤った有害な出力につながる可能性があることを示す。
LLMベースの医療応用における健康不平等のリスクを検知・緩和する新しいフレームワークであるEquityGuardを紹介する。
論文 参考訳(メタデータ) (2024-10-07T16:40:21Z) - OR-Bench: An Over-Refusal Benchmark for Large Language Models [65.34666117785179]
大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。
本研究では,大規模なオーバーリファレンスデータセットの自動生成手法を提案する。
OR-Benchは,最初の大規模オーバーリファレンスベンチマークである。
論文 参考訳(メタデータ) (2024-05-31T15:44:33Z) - Evaluating Large Language Models for Public Health Classification and Extraction Tasks [0.3545046504280562]
本稿では,自由テキストの分類と抽出を含む公衆衛生業務におけるLarge Language Models(LLMs)の評価について述べる。
ゼロショット・イン・コンテクスト学習を用いて,全タスクにまたがるオープンウェイトLLMを11個評価した。
LLMが公衆衛生の専門家にとって、様々な無料テキストソースから情報を抽出するのに有用なツールであることを示す有望な兆候を見出した。
論文 参考訳(メタデータ) (2024-05-23T16:33:18Z) - D-NLP at SemEval-2024 Task 2: Evaluating Clinical Inference Capabilities of Large Language Models [5.439020425819001]
大規模言語モデル(LLM)は、様々なタスクにおける顕著なパフォーマンスのために、大きな注目を集め、広く使われている。
しかし、幻覚、事実的矛盾、数値的定量的推論の限界などの問題を含む、彼ら自身の課題は存在しない。
論文 参考訳(メタデータ) (2024-05-07T10:11:14Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - C-Watcher: A Framework for Early Detection of High-Risk Neighborhoods
Ahead of COVID-19 Outbreak [54.39837683016444]
C-Watcherは、新型コロナウイルスの感染拡大に先立ち、対象都市のすべての地区を検査し、感染リスクを予測することを目指している。
C-WatcherはBaidu Mapsから大規模な人体移動データを収集し、都市移動パターンに基づいた一連の特徴を用いて市内のすべての住宅地区を特徴付ける。
新型コロナウイルスの感染拡大の初期段階における実データ記録を用いたC-Watcherの広範な実験を行った。
論文 参考訳(メタデータ) (2020-12-22T17:02:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。