論文の概要: AnesSuite: A Comprehensive Benchmark and Dataset Suite for Anesthesiology Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2504.02404v2
- Date: Mon, 29 Sep 2025 04:08:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:08.876967
- Title: AnesSuite: A Comprehensive Benchmark and Dataset Suite for Anesthesiology Reasoning in LLMs
- Title(参考訳): AnesSuite: LLMにおける麻酔学推論のための総合ベンチマークとデータセットスイート
- Authors: Xiang Feng, Wentao Jiang, Zengmao Wang, Yong Luo, Pingbo Xu, Baosheng Yu, Hua Jin, Bo Du, Jing Zhang,
- Abstract要約: AnesSuiteは、LSMの麻酔学推論用に特別に設計された最初のデータセットスイートである。
Morpheusは麻酔学の推論のための最初のベースラインモデルコレクションである。
- 参考スコア(独自算出の注目度): 62.60333833486799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The application of large language models (LLMs) in the medical field has garnered significant attention, yet their reasoning capabilities in more specialized domains like anesthesiology remain underexplored. To bridge this gap, we introduce AnesSuite, the first comprehensive dataset suite specifically designed for anesthesiology reasoning in LLMs. The suite features AnesBench, an evaluation benchmark tailored to assess anesthesiology-related reasoning across three levels: factual retrieval (System 1), hybrid reasoning (System 1.x), and complex decision-making (System 2). Alongside this benchmark, the suite includes three training datasets that provide an infrastructure for continued pre-training (CPT), supervised fine-tuning (SFT), and reinforcement learning with verifiable rewards (RLVR). Leveraging this suite, we develop Morpheus, the first baseline model collection for anesthesiology reasoning. Despite undergoing limited training with SFT and group relative policy optimization (GRPO), Morpheus demonstrates substantial performance improvements, rivaling the performance of larger-scale models. Furthermore, through comprehensive evaluations and experiments, we analyze the key factors influencing anesthesiology reasoning performance, including model characteristics, training strategies and training data. Both AnesSuite and Morpheus will be open-sourced at https://github.com/MiliLab/AnesSuite.
- Abstract(参考訳): 医学分野における大規模言語モデル(LLM)の適用は大きな注目を集めているが、麻酔学のような専門分野における推論能力はいまだに未熟である。
このギャップを埋めるために,LLMの麻酔学推論用に設計された最初の包括的データセットスイートであるAnesSuiteを紹介した。
AnesBenchは、3つのレベルの麻酔学関連推論を評価するために調整された評価ベンチマークで、事実検索(System 1)、ハイブリッド推論(System 1.x)、複雑な意思決定(System 2)である。
このベンチマークに加えて、このスイートには、継続事前トレーニング(CPT)、教師付き微調整(SFT)、検証可能な報酬(RLVR)による強化学習のインフラストラクチャを提供する3つのトレーニングデータセットが含まれている。
このスイートを活用することで、麻酔学推論のための最初のベースラインモデルコレクションであるMorpheusを開発した。
SFT とグループ相対ポリシー最適化 (GRPO) による限られた訓練にもかかわらず、Morpheus は大規模なモデルの性能に匹敵する大幅な性能向上を示した。
さらに, 包括的評価と実験により, モデル特性, トレーニング戦略, トレーニングデータなど, 麻酔理学の推論性能に影響を及ぼす要因を分析した。
AnesSuiteとMorpheusは、https://github.com/MiliLab/AnesSuite.comでオープンソース化される。
関連論文リスト
- Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文 参考訳(メタデータ) (2025-08-01T14:41:31Z) - Enhancing Study-Level Inference from Clinical Trial Papers via RL-based Numeric Reasoning [10.449112615828419]
我々はその問題を量的推論の1つとして概念化している。
本研究では,数値データ抽出モデルと効果推定成分からなる数値推論システムを開発する。
論文 参考訳(メタデータ) (2025-05-28T22:59:45Z) - AGIR: Assessing 3D Gait Impairment with Reasoning based on LLMs [0.0]
歩行障害は、神経変性疾患の早期診断、疾患モニタリング、治療評価において重要な役割を果たす。
近年のディープラーニングベースのアプローチは、分類精度を一貫して改善しているが、解釈可能性に欠けることが多い。
本稿では、事前訓練されたVQ-VAEモーショントークンライザと、一対のモーショントークン上で微調整されたLarge Language Model(LLM)からなる新しいパイプラインであるAGIRを紹介する。
論文 参考訳(メタデータ) (2025-03-23T17:12:16Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。
内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Evaluating the Effectiveness of the Foundational Models for Q&A Classification in Mental Health care [0.18416014644193068]
プレトレーニング言語モデル(PLM)は、メンタルヘルスを変革する可能性がある。
本研究は,精神保健領域における質問紙と回答紙の分類におけるPLMの有効性を評価するものである。
論文 参考訳(メタデータ) (2024-06-23T00:11:07Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - XAI4LLM. Let Machine Learning Models and LLMs Collaborate for Enhanced In-Context Learning in Healthcare [16.79952669254101]
本稿では,大規模言語モデルによる構造化された臨床データ処理を実現するための知識誘導型インコンテキスト学習フレームワークを提案する。
このアプローチでは、ドメイン固有の機能グループ化、慎重にバランスのとれた数ショットの例、タスク固有のプロンプト戦略を統合する。
論文 参考訳(メタデータ) (2024-05-10T06:52:44Z) - Evaluation of General Large Language Models in Contextually Assessing
Semantic Concepts Extracted from Adult Critical Care Electronic Health Record
Notes [17.648021186810663]
本研究の目的は,大規模言語モデル(LLM)の実際の臨床ノートの理解と処理における性能を評価することである。
GPTファミリーモデルは、コスト効率と時間節約能力によって証明された、かなりの効率性を示している。
論文 参考訳(メタデータ) (2024-01-24T16:52:37Z) - Physics Inspired Hybrid Attention for SAR Target Recognition [61.01086031364307]
本稿では,物理にヒントを得たハイブリットアテンション(PIHA)機構と,この問題に対処するためのOFA評価プロトコルを提案する。
PIHAは、物理的情報の高レベルなセマンティクスを活用して、ターゲットの局所的なセマンティクスを認識した特徴群を活性化し、誘導する。
提案手法は,ASCパラメータが同じ12のテストシナリオにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-27T14:39:41Z) - MS Lesion Segmentation: Revisiting Weighting Mechanisms for Federated
Learning [92.91544082745196]
フェデレートラーニング(FL)は医用画像解析に広く用いられている。
FLのパフォーマンスは、多発性硬化症(MS)病変セグメンテーションタスクに制限される。
2つの効果的な再重み付け機構によるFLMS病変分割フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-03T14:06:03Z) - Estimating and Improving Fairness with Adversarial Learning [65.99330614802388]
本研究では,深層学習に基づく医療画像解析システムにおけるバイアスの同時緩和と検出を目的としたマルチタスク・トレーニング戦略を提案する。
具体的には,バイアスに対する識別モジュールと,ベース分類モデルにおける不公平性を予測するクリティカルモジュールを追加することを提案する。
大規模で利用可能な皮膚病変データセットのフレームワークを評価します。
論文 参考訳(メタデータ) (2021-03-07T03:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。