論文の概要: From Knowledge to Inference: Scaling Laws of Specialized Reasoning on GlobalHealthAtlas
- arxiv url: http://arxiv.org/abs/2602.00491v1
- Date: Sat, 31 Jan 2026 03:29:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.220366
- Title: From Knowledge to Inference: Scaling Laws of Specialized Reasoning on GlobalHealthAtlas
- Title(参考訳): 知識から推論へ:グローバルヘルスアトラスにおける特殊推論のスケーリング法則
- Authors: Zhaokun Yan, Zhaohan Liu, Wuzheng Dong, Lijie Feng, Chengxiao Dai,
- Abstract要約: textbfGlobalHealthAtlasは15の公衆衛生ドメインと17の言語にまたがる280,210のインスタンスからなる大規模多言語データセットである。
本稿では,大規模言語モデル (LLM) による検索,複製,エビデンスグラウンドチェック,ラベル検証を併用して構築・品質制御パイプラインを提案する。
- 参考スコア(独自算出の注目度): 1.8594711725515678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Public health reasoning requires population level inference grounded in scientific evidence, expert consensus, and safety constraints. However, it remains underexplored as a structured machine learning problem with limited supervised signals and benchmarks. We introduce \textbf{GlobalHealthAtlas}, a large scale multilingual dataset of 280,210 instances spanning 15 public health domains and 17 languages, stratified into three difficulty levels from health literacy to epidemiological and policy reasoning. Instances are derived from openly available public health sources and labeled by language, domain, and difficulty to support supervised learning and slice based evaluation. We further propose large language model (LLM) assisted construction and quality control pipeline with retrieval, duplication, evidence grounding checks, and label validation to improve consistency at scale. Finally, we present a domain aligned evaluator distilled from high confidence judgments of diverse LLMs to assess outputs along six dimensions: Accuracy, Reasoning, Completeness, Consensus Alignment, Terminology Norms, and Insightfulness. Together, these contributions enable reproducible training and evaluation of LLMs for safety critical public health reasoning beyond conventional QA benchmarks.
- Abstract(参考訳): 公衆衛生の推論には、科学的証拠、専門家の合意、安全上の制約に基づく人口レベルの推測が必要である。
しかし、教師付き信号とベンチマークが限定された構造化機械学習問題として、まだ探索されていない。
15の公衆衛生ドメインと17の言語にまたがる280,210の大規模多言語データセットである \textbf{GlobalHealthAtlas} を紹介した。
インスタンスは公開されている公衆衛生ソースから派生し、言語、ドメインによってラベル付けされ、教師付き学習とスライスに基づく評価をサポートするのが困難である。
さらに,大規模言語モデル (LLM) による検索,複製,エビデンス基底チェック,ラベルバリデーションを併用して構築・品質制御パイプラインを提案する。
最後に,多種多様なLCMの高信頼度判定から抽出した領域整列評価器を,精度,推論,完全性,コンセンサスアライメント,ターミノロジーノルム,洞察力の6次元で評価する。
これらの貢献により、従来のQAベンチマークを超える安全クリティカルな公衆衛生推論のためのLLMの再現可能なトレーニングと評価が可能になる。
関連論文リスト
- RephQA: Evaluating Readability of Large Language Models in Public Health Question Answering [22.172697706271535]
LLM(Large Language Models)は、複雑な医療問題に対処することを約束する。
効果的な医療薬の開発における重要なボトルネックは、LCM生成応答の可読性にある。
公衆衛生質問応答(QA)におけるLCMの可読性を評価するためのベンチマークであるRephQAを紹介する。
論文 参考訳(メタデータ) (2025-09-19T19:09:42Z) - Rethinking Evidence Hierarchies in Medical Language Benchmarks: A Critical Evaluation of HealthBench [0.0]
HealthBenchは、健康のためにAIシステムの能力を測定するために設計されたベンチマークである。
高レベルな臨床的証拠ではなく、専門家の意見に頼っているため、地域バイアスと個々の臨床医の同調を表わすリスクがある。
本稿では,体系的レビューとGRADEエビデンス評価を取り入れたバージョン管理臨床ガイドラインにおいて,報酬関数のアンカー化を提案する。
論文 参考訳(メタデータ) (2025-07-31T18:16:10Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - Trustworthy and Practical AI for Healthcare: A Guided Deferral System with Large Language Models [1.2281181385434294]
大規模言語モデル(LLM)は、医療における様々なアプリケーションに有用な技術を提供する。
彼らの幻覚化傾向と既存のプロプライエタリなシステムへの依存は、批判的な意思決定に関する環境に課題をもたらす。
本稿では,障害分類のための医療報告を同時に解析し,ヒトへの知的な指導による不確実な予測を推論する新しいHAICガイド型deferralシステムを提案する。
論文 参考訳(メタデータ) (2024-06-11T12:41:54Z) - A Toolbox for Surfacing Health Equity Harms and Biases in Large Language Models [20.11590976578911]
大規模言語モデル(LLM)は、複雑な健康情報のニーズを満たすことを約束すると同時に、健康格差を悪化させる可能性がある。
エクイティ関連モデル失敗の信頼性評価は、ヘルスエクイティを促進するシステムを開発するための重要なステップである。
医学的問題に対するLLMによる長期的回答において、株式関連害を生じさせる可能性のあるバイアスを克服するためのリソースと方法論を提示する。
論文 参考訳(メタデータ) (2024-03-18T17:56:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。