論文の概要: AnesBench: Multi-Dimensional Evaluation of LLM Reasoning in Anesthesiology
- arxiv url: http://arxiv.org/abs/2504.02404v1
- Date: Thu, 03 Apr 2025 08:54:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:57:03.840729
- Title: AnesBench: Multi-Dimensional Evaluation of LLM Reasoning in Anesthesiology
- Title(参考訳): AnesBench:麻酔学におけるLLM推論の多次元的評価
- Authors: Xiang Feng, Wentao Jiang, Zengmao Wang, Yong Luo, Pingbo Xu, Baosheng Yu, Hua Jin, Bo Du, Jing Zhang,
- Abstract要約: 麻酔学における大規模言語モデル(LLM)の推論能力を体系的に評価した。
AnesBenchは3段階にわたる麻酔学関連推論を評価するために設計された言語間ベンチマークである。
- 参考スコア(独自算出の注目度): 47.52685298426068
- License:
- Abstract: The application of large language models (LLMs) in the medical field has gained significant attention, yet their reasoning capabilities in more specialized domains like anesthesiology remain underexplored. In this paper, we systematically evaluate the reasoning capabilities of LLMs in anesthesiology and analyze key factors influencing their performance. To this end, we introduce AnesBench, a cross-lingual benchmark designed to assess anesthesiology-related reasoning across three levels: factual retrieval (System 1), hybrid reasoning (System 1.x), and complex decision-making (System 2). Through extensive experiments, we first explore how model characteristics, including model scale, Chain of Thought (CoT) length, and language transferability, affect reasoning performance. Then, we further evaluate the effectiveness of different training strategies, leveraging our curated anesthesiology-related dataset, including continuous pre-training (CPT) and supervised fine-tuning (SFT). Additionally, we also investigate how the test-time reasoning techniques, such as Best-of-N sampling and beam search, influence reasoning performance, and assess the impact of reasoning-enhanced model distillation, specifically DeepSeek-R1. We will publicly release AnesBench, along with our CPT and SFT training datasets and evaluation code at https://github.com/MiliLab/AnesBench.
- Abstract(参考訳): 医学分野における大規模言語モデル(LLM)の適用は注目されているが、麻酔学のような専門分野における推論能力はいまだ研究されていない。
本稿では, 麻酔科におけるLCMの理学効果を体系的に評価し, その性能に影響を及ぼす要因を解析する。
この目的のために,本研究では,現実検索(System 1),ハイブリッド推論(System 1.x),複雑意思決定(System 2)の3段階にわたる麻酔学関連推論を評価するために設計された言語間ベンチマークであるAnesBenchを紹介する。
まず,モデルスケール,思考の連鎖(CoT)長さ,言語伝達性などのモデル特性が推論性能に与える影響について検討する。
そこで我々は,CPT(Continuous Pre-Torning)やSFT(Corated fine-tuning)など,治癒した麻酔学関連データセットを活用することにより,異なるトレーニング戦略の有効性をさらに評価した。
さらに,Best-of-Nサンプリングやビームサーチなどの試験時間推算技術が,推算性能に与える影響や,推算モデル蒸留,特にDeepSeek-R1の影響について検討した。
私たちは、CPTとSFTのトレーニングデータセットと評価コードとともに、AnesBenchをhttps://github.com/MiliLab/AnesBench.comで公開します。
関連論文リスト
- SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。
内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Evaluating the Effectiveness of the Foundational Models for Q&A Classification in Mental Health care [0.18416014644193068]
プレトレーニング言語モデル(PLM)は、メンタルヘルスを変革する可能性がある。
本研究は,精神保健領域における質問紙と回答紙の分類におけるPLMの有効性を評価するものである。
論文 参考訳(メタデータ) (2024-06-23T00:11:07Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Evaluation of General Large Language Models in Contextually Assessing
Semantic Concepts Extracted from Adult Critical Care Electronic Health Record
Notes [17.648021186810663]
本研究の目的は,大規模言語モデル(LLM)の実際の臨床ノートの理解と処理における性能を評価することである。
GPTファミリーモデルは、コスト効率と時間節約能力によって証明された、かなりの効率性を示している。
論文 参考訳(メタデータ) (2024-01-24T16:52:37Z) - Physics Inspired Hybrid Attention for SAR Target Recognition [61.01086031364307]
本稿では,物理にヒントを得たハイブリットアテンション(PIHA)機構と,この問題に対処するためのOFA評価プロトコルを提案する。
PIHAは、物理的情報の高レベルなセマンティクスを活用して、ターゲットの局所的なセマンティクスを認識した特徴群を活性化し、誘導する。
提案手法は,ASCパラメータが同じ12のテストシナリオにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-27T14:39:41Z) - MS Lesion Segmentation: Revisiting Weighting Mechanisms for Federated
Learning [92.91544082745196]
フェデレートラーニング(FL)は医用画像解析に広く用いられている。
FLのパフォーマンスは、多発性硬化症(MS)病変セグメンテーションタスクに制限される。
2つの効果的な再重み付け機構によるFLMS病変分割フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-03T14:06:03Z) - A framework for causal segmentation analysis with machine learning in
large-scale digital experiments [0.0]
本稿では,因果セグメント発見のためのエンドツーエンドの方法論的枠組みを提案する。
提案手法は,(1)サブグループ特異的な治療効果に基づく候補治療の恩恵を受けるためのユーザセグメントの発見,(2)予測されたセグメント特異的な効果や害に基づいて,動的に単位を学習者の治療アームに割り当てることによる因果的影響の評価,の2つの目的を統一する。
論文 参考訳(メタデータ) (2021-11-01T19:22:27Z) - Estimating and Improving Fairness with Adversarial Learning [65.99330614802388]
本研究では,深層学習に基づく医療画像解析システムにおけるバイアスの同時緩和と検出を目的としたマルチタスク・トレーニング戦略を提案する。
具体的には,バイアスに対する識別モジュールと,ベース分類モデルにおける不公平性を予測するクリティカルモジュールを追加することを提案する。
大規模で利用可能な皮膚病変データセットのフレームワークを評価します。
論文 参考訳(メタデータ) (2021-03-07T03:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。