論文の概要: Can LLMs Help Allocate Public Health Resources? A Case Study on Childhood Lead Testing
- arxiv url: http://arxiv.org/abs/2511.18239v1
- Date: Sun, 23 Nov 2025 00:54:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.714042
- Title: Can LLMs Help Allocate Public Health Resources? A Case Study on Childhood Lead Testing
- Title(参考訳): LLMは公衆衛生資源のアロケートに有効か? : 小児鉛検査を事例として
- Authors: Mohamed Afane, Ying Wang, Juntao Chen,
- Abstract要約: プライオリティ・スコアは、未検査児の割合、血中鉛濃度の上昇、公衆衛生に関するパターンを統合している。
我々は,シカゴ,ニューヨーク,ワシントンD.C.の136地区における資源配分決定の最適化を支援するために,これらの割り当てタスクを活用している。
エージェント推論と深層研究能力を備えた大規模言語モデルが公衆衛生資源を効果的に配分できるかどうかを評価する。
- 参考スコア(独自算出の注目度): 6.53953934612787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Public health agencies face critical challenges in identifying high-risk neighborhoods for childhood lead exposure with limited resources for outreach and intervention programs. To address this, we develop a Priority Score integrating untested children proportions, elevated blood lead prevalence, and public health coverage patterns to support optimized resource allocation decisions across 136 neighborhoods in Chicago, New York City, and Washington, D.C. We leverage these allocation tasks, which require integrating multiple vulnerability indicators and interpreting empirical evidence, to evaluate whether large language models (LLMs) with agentic reasoning and deep research capabilities can effectively allocate public health resources when presented with structured allocation scenarios. LLMs were tasked with distributing 1,000 test kits within each city based on neighborhood vulnerability indicators. Results reveal significant limitations: LLMs frequently overlooked neighborhoods with highest lead prevalence and largest proportions of untested children, such as West Englewood in Chicago, while allocating disproportionate resources to lower-priority areas like Hunts Point in New York City. Overall accuracy averaged 0.46, reaching a maximum of 0.66 with ChatGPT 5 Deep Research. Despite their marketed deep research capabilities, LLMs struggled with fundamental limitations in information retrieval and evidence-based reasoning, frequently citing outdated data and allowing non-empirical narratives about neighborhood conditions to override quantitative vulnerability indicators.
- Abstract(参考訳): 公衆衛生機関は、小児の鉛曝露のリスクの高い地区を、アウトリーチや介入プログラムの限られた資源で特定する上で、重大な課題に直面している。
そこで我々は,シカゴ,ニューヨーク市,ワシントンD.C.の136地区における資源配分決定の最適化を支援するために,未検査児の割合,血中鉛濃度の上昇,公衆衛生に関するパターンを統合したプライオリティスコアを開発し,複数の脆弱性指標の統合と実証的証拠の解釈を必要とするこれらのアロケーションタスクを活用し,エージェント的推論による大規模言語モデル(LLM)が,構造化されたアロケーションシナリオで提示された場合,公衆衛生資源を効果的に割り当てることができるかどうかを評価する。
LLMは、近隣の脆弱性指標に基づいて、各都市に1000の試験キットを配布する任務を負った。
LLMはシカゴのウェスト・エングルウッド(英語版)など未試験の子供の割合が最大であり、またニューヨーク市のハンツポイント(英語版)のような低優先度地域(英語版)に不均等な資源を割り当てている。
全体の精度は平均0.46で、ChatGPT 5 Deep Researchで最大0.66に達した。
市場の深い研究能力にもかかわらず、LSMは情報検索と証拠に基づく推論の基本的な限界に悩まされ、時代遅れのデータを引き合いに出し、近隣の条件に関する経験的でない物語を定量的な脆弱性指標をオーバーライドさせることができた。
関連論文リスト
- Analyzing and Optimizing the Distribution of Blood Lead Level Testing for Children in New York City: A Data-Driven Approach [5.586191108738563]
本研究は,2005年から2021年までのニューヨーク市の42地区で6歳未満の小児の血中鉛濃度(BLL)を測定した。
市全体でのBLL率の低下にもかかわらず、地区レベルでの格差は持続し、公式報告書には触れられていない。
論文 参考訳(メタデータ) (2025-11-23T03:27:13Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Unveiling Performance Challenges of Large Language Models in Low-Resource Healthcare: A Demographic Fairness Perspective [7.1047384702030625]
我々は、6つの多様な医療タスクにまたがる3つの一般的な学習フレームワークを用いて、最先端の大規模言語モデル(LLM)を評価した。
LLMを現実の医療タスクに適用する上での重大な課題と、人口統計群全体での永続的公平性の問題を見出した。
論文 参考訳(メタデータ) (2024-11-30T18:52:30Z) - Mitigating the Risk of Health Inequity Exacerbated by Large Language Models [5.02540629164568]
大規模言語モデルの入力に非決定的な社会デマトグラフィー要素を組み込むことは、誤った有害な出力につながる可能性があることを示す。
LLMベースの医療応用における健康不平等のリスクを検知・緩和する新しいフレームワークであるEquityGuardを紹介する。
論文 参考訳(メタデータ) (2024-10-07T16:40:21Z) - OR-Bench: An Over-Refusal Benchmark for Large Language Models [65.34666117785179]
大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。
本研究では,大規模なオーバーリファレンスデータセットの自動生成手法を提案する。
OR-Benchは,最初の大規模オーバーリファレンスベンチマークである。
論文 参考訳(メタデータ) (2024-05-31T15:44:33Z) - D-NLP at SemEval-2024 Task 2: Evaluating Clinical Inference Capabilities of Large Language Models [5.439020425819001]
大規模言語モデル(LLM)は、様々なタスクにおける顕著なパフォーマンスのために、大きな注目を集め、広く使われている。
しかし、幻覚、事実的矛盾、数値的定量的推論の限界などの問題を含む、彼ら自身の課題は存在しない。
論文 参考訳(メタデータ) (2024-05-07T10:11:14Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。