論文の概要: MeNTi: Bridging Medical Calculator and LLM Agent with Nested Tool Calling
- arxiv url: http://arxiv.org/abs/2410.13610v1
- Date: Thu, 17 Oct 2024 14:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:21:56.168254
- Title: MeNTi: Bridging Medical Calculator and LLM Agent with Nested Tool Calling
- Title(参考訳): MeNTi: ネストツールコールによる医療電卓とLLMエージェントのブリッジ
- Authors: Yakun Zhu, Shaohang Wei, Xu Wang, Kui Xue, Xiaofan Zhang, Shaoting Zhang,
- Abstract要約: 大規模言語モデル(LLM)のための汎用エージェントアーキテクチャであるMeNTiを紹介する。
MeNTiは特殊な医療ツールキットを統合し、メタツールとネスト呼び出し機構を使用してLSMツールの利用を促進する。
計算機シナリオの臨床過程におけるLCMの定量的評価能力を評価するために,CalcQAを紹介する。
- 参考スコア(独自算出の注目度): 12.236137157144965
- License:
- Abstract: Integrating tools into Large Language Models (LLMs) has facilitated the widespread application. Despite this, in specialized downstream task contexts, reliance solely on tools is insufficient to fully address the complexities of the real world. This particularly restricts the effective deployment of LLMs in fields such as medicine. In this paper, we focus on the downstream tasks of medical calculators, which use standardized tests to assess an individual's health status. We introduce MeNTi, a universal agent architecture for LLMs. MeNTi integrates a specialized medical toolkit and employs meta-tool and nested calling mechanisms to enhance LLM tool utilization. Specifically, it achieves flexible tool selection and nested tool calling to address practical issues faced in intricate medical scenarios, including calculator selection, slot filling, and unit conversion. To assess the capabilities of LLMs for quantitative assessment throughout the clinical process of calculator scenarios, we introduce CalcQA. This benchmark requires LLMs to use medical calculators to perform calculations and assess patient health status. CalcQA is constructed by professional physicians and includes 100 case-calculator pairs, complemented by a toolkit of 281 medical tools. The experimental results demonstrate significant performance improvements with our framework. This research paves new directions for applying LLMs in demanding scenarios of medicine.
- Abstract(参考訳): ツールをLLM(Large Language Models)に統合することで、広範なアプリケーションの開発が容易になった。
それにもかかわらず、特定の下流のタスクコンテキストでは、ツールにのみ依存することは、現実世界の複雑さを完全に解決するには不十分である。
これは医学などの分野におけるLSMの効果的な展開を特に制限する。
本稿では、標準化されたテストを用いて個人の健康状態を評価する医療電卓の下流業務に焦点をあてる。
LLMのための汎用エージェントアーキテクチャであるMeNTiを紹介する。
MeNTiは特殊な医療ツールキットを統合し、メタツールとネスト呼び出し機構を使用してLSMツールの利用を促進する。
具体的には、フレキシブルなツール選択とネストされたツール呼び出しを実現し、電卓の選択、スロットフィリング、ユニット変換など、複雑な医療シナリオで直面する現実的な問題に対処する。
計算機シナリオの臨床過程におけるLCMの定量的評価能力を評価するために,CalcQAを紹介する。
このベンチマークでは、医療電卓を使用して計算を行い、患者の健康状態を評価する必要がある。
CalcQAは専門医によって構築され、281の医療ツールのツールキットによって補完される100のケース・カルキュレーターペアを含んでいる。
実験結果から,本フレームワークの大幅な性能向上が示された。
本研究は, LLMを医療のシナリオに応用するための新たな方向性を示すものである。
関連論文リスト
- Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。
本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-24T15:41:56Z) - Learning to Ask: When LLMs Meet Unclear Instruction [49.256630152684764]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。
我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。
Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-31T23:06:12Z) - LLMs are not Zero-Shot Reasoners for Biomedical Information Extraction [13.965777046473885]
大規模言語モデル(LLM)は、医療分野のアプリケーションにますます採用されている。
LLMがバイオメディカル領域で伝統的に追求されるタスクでどの程度うまく機能するかは不明である。
論文 参考訳(メタデータ) (2024-08-22T09:37:40Z) - MedCalc-Bench: Evaluating Large Language Models for Medical Calculations [18.8552481902506]
医学における大規模言語モデル(LLM)を評価するための現在のベンチマークは、主にドメイン知識と記述的推論を含む質問応答に焦点を当てている。
我々は,LSMの医療計算能力を評価することを目的とした,第一種データセットであるMedCalc-Benchを提案する。
論文 参考訳(メタデータ) (2024-06-17T19:07:21Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。
現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。
UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文 参考訳(メタデータ) (2024-01-30T16:52:56Z) - A Survey of Large Language Models in Medicine: Progress, Application, and Challenge [85.09998659355038]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z) - Large Language Models Illuminate a Progressive Pathway to Artificial
Healthcare Assistant: A Review [16.008511195589925]
大規模言語モデル(LLM)は、人間のレベルの言語理解と推論を模倣する有望な能力を示している。
本稿では,医学におけるLSMの応用と意義について概説する。
論文 参考訳(メタデータ) (2023-11-03T13:51:36Z) - Redefining Digital Health Interfaces with Large Language Models [69.02059202720073]
大規模言語モデル(LLM)は、複雑な情報を処理できる汎用モデルとして登場した。
LLMが臨床医とデジタル技術との新たなインターフェースを提供する方法を示す。
自動機械学習を用いた新しい予後ツールを開発した。
論文 参考訳(メタデータ) (2023-10-05T14:18:40Z) - Large Language Models for Biomedical Knowledge Graph Construction:
Information extraction from EMR notes [0.0]
大規模言語モデル(LLM)に基づくエンドツーエンド機械学習ソリューションを提案する。
KG構築プロセスで使用される物質は、疾患、因子、治療、および疾患を経験中に患者と共存する症状である。
提案手法の応用は加齢に伴う黄斑変性に対して実証される。
論文 参考訳(メタデータ) (2023-01-29T15:52:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。