論文の概要: Applications of Small Language Models in Medical Imaging Classification with a Focus on Prompt Strategies
- arxiv url: http://arxiv.org/abs/2508.13378v2
- Date: Sat, 27 Sep 2025 03:41:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.473803
- Title: Applications of Small Language Models in Medical Imaging Classification with a Focus on Prompt Strategies
- Title(参考訳): 医用画像分類における小言語モデルの応用 : プロンプト戦略に着目して
- Authors: Yiting Wang, Ziwei Wang, Jiachen Zhong, Di Zhu, Weiyi Li,
- Abstract要約: 本研究では,医療画像分類作業における小言語モデル(SLM)の性能について検討する。
NIH Chest X-ray データセットを用いて胸部X線位置を分類する作業において,複数のSLMを評価した。
以上の結果から,一部のSLMは良好なプロンプトで競合精度を達成できることがわかった。
- 参考スコア(独自算出の注目度): 9.1953139634128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown remarkable capabilities in natural language processing and multi-modal understanding. However, their high computational cost, limited accessibility, and data privacy concerns hinder their adoption in resource-constrained healthcare environments. This study investigates the performance of small language models (SLMs) in a medical imaging classification task, comparing different models and prompt designs to identify the optimal combination for accuracy and usability. Using the NIH Chest X-ray dataset, we evaluate multiple SLMs on the task of classifying chest X-ray positions (anteroposterior [AP] vs. posteroanterior [PA]) under three prompt strategies: baseline instruction, incremental summary prompts, and correction-based reflective prompts. Our results show that certain SLMs achieve competitive accuracy with well-crafted prompts, suggesting that prompt engineering can substantially enhance SLM performance in healthcare applications without requiring deep AI expertise from end users.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語処理とマルチモーダル理解において顕著な能力を示している。
しかし、その高い計算コスト、アクセシビリティの制限、データプライバシに関する懸念は、リソースに制約のある医療環境への導入を妨げる。
本研究では, 医療画像分類タスクにおける小言語モデル(SLM)の性能について検討し, 異なるモデルを比較し, 精度とユーザビリティの最適組み合わせを特定するために設計を促す。
NIH Chest X-ray データセットを用いて,胸部X線位置(後腹側 [AP] 対後腹側 [PA] )を,ベースライン指導,インクリメンタル・サプリメント・プロンプト,修正ベースの反射的プロンプトの3つで分類する作業において,複数のSLMを評価した。
以上の結果から,特定のSLMは高度なプロンプトによって競争精度を達成し,医療アプリケーションにおけるSLMの性能を大幅に向上させることが可能であり,エンドユーザーからのAIの深い専門知識を必要としないことが示唆された。
関連論文リスト
- Evaluating the Diagnostic Classification Ability of Multimodal Large Language Models: Insights from the Osteoarthritis Initiative [14.002322217782364]
マルチモーダル大言語モデル(MLLM)は,医療視覚的質問応答(VQA)とレポート生成において有望な性能を示す。
膝関節症(OA)分類におけるMLLMアーキテクチャの検討を行った。
論文 参考訳(メタデータ) (2026-01-05T13:31:44Z) - Enhancing the Medical Context-Awareness Ability of LLMs via Multifaceted Self-Refinement Learning [49.559151128219725]
大規模言語モデル(LLM)は医療分野で大きな可能性を示しており、いくつかのベンチマークで高いパフォーマンスを実現している。
しかし、実際の医療シナリオではパフォーマンスが低下し続けており、コンテキスト認識の強化が要求されることが多い。
データ駆動型アプローチであるMultifaceted Self-Refinement (MuSeR)を提案する。
論文 参考訳(メタデータ) (2025-11-13T08:13:23Z) - Multimodal Retrieval-Augmented Generation with Large Language Models for Medical VQA [0.6015898117103068]
MedVQA (Medicical Visual Question Answering) は、医療画像上の自然言語クエリーを、臨床的な意思決定と患者医療を支援する。
本稿では,汎用的な命令調整型大規模言語モデルと検索拡張生成(RAG)フレームワークを用いたMasonNLPシステムを提案する。
19チーム中3位、51チームが平均41.37%の成績を残した。
論文 参考訳(メタデータ) (2025-10-12T07:03:58Z) - Small Language Models for Emergency Departments Decision Support: A Benchmark Study [26.333059604118414]
大規模言語モデル(LLM)は、医師が様々な臨床および手術業務を行うのを助けるために、医学領域でますます人気が高まっている。
小型言語モデル(SLM)は、その固有の推論能力と効率的な性能から、大きな可能性を秘めている。
これにより、SLMは、タイムリーかつ正確な情報合成を提供することで、医師を支援することができ、臨床意思決定とワークフロー効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-05T04:46:30Z) - ForenX: Towards Explainable AI-Generated Image Detection with Multimodal Large Language Models [82.04858317800097]
ForenXは画像の真正性を識別するだけでなく、人間の思考に共鳴する説明を提供する新しい手法である。
ForenXは、強力なマルチモーダル大言語モデル(MLLM)を使用して、法医学的な手がかりを分析し、解釈する。
本稿では,AI生成画像における偽証拠の記述専用のデータセットであるForgReasonを紹介する。
論文 参考訳(メタデータ) (2025-08-02T15:21:26Z) - Advancing AI Research Assistants with Expert-Involved Learning [84.30323604785646]
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、生物医学的な発見を促進することを約束するが、その信頼性は未定である。
ARIEL(AI Research Assistant for Expert-in-the-Loop Learning)は,オープンソースの評価・最適化フレームワークである。
LMMは詳細な視覚的推論に苦しむのに対し、最先端のモデルでは流動性はあるが不完全な要約を生成する。
論文 参考訳(メタデータ) (2025-05-03T14:21:48Z) - LLaVA-RadZ: Can Multimodal Large Language Models Effectively Tackle Zero-shot Radiology Recognition? [59.81732629438753]
LLaVA-RadZは、既存のMLLM機能を利用して、ゼロショットの医療疾患認識のための、シンプルで効果的なフレームワークである。
具体的には、MLLMデコーダアーキテクチャの特性を活用するために、DFAT(Decoding-Side Feature Alignment Training)と呼ばれるエンドツーエンドのトレーニング戦略を設計する。
また,大規模モデルの本質的な医学的知識を活用するために,DKAM(Domain Knowledge Anchoring Module)を導入する。
論文 参考訳(メタデータ) (2025-03-10T16:05:40Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding [92.32881381717594]
医療情報抽出タスクにおける幻覚の問題を解決するために,ALCD(ALternate Contrastive Decoding)を導入する。
ALCDは, 従来の復号法に比べて幻覚の解消に有意な改善が見られた。
論文 参考訳(メタデータ) (2024-10-21T07:19:19Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - XAI4LLM. Let Machine Learning Models and LLMs Collaborate for Enhanced In-Context Learning in Healthcare [16.79952669254101]
本稿では,大規模言語モデルによる構造化された臨床データ処理を実現するための知識誘導型インコンテキスト学習フレームワークを提案する。
このアプローチでは、ドメイン固有の機能グループ化、慎重にバランスのとれた数ショットの例、タスク固有のプロンプト戦略を統合する。
論文 参考訳(メタデータ) (2024-05-10T06:52:44Z) - Aligning Large Language Models for Clinical Tasks [0.0]
大規模言語モデル(LLM)は目覚ましい適応性を示しており、明示的に訓練されていないタスクに精通する能力を示している。
我々は「Expand-guess-refine」として知られる医療質問応答のためのアライメント戦略を提案する。
この手法の予備的な分析により、USMLEデータセットから得られた質問のサブセットで70.63%のスコアが得られた。
論文 参考訳(メタデータ) (2023-09-06T10:20:06Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。