Fugu-MT 論文翻訳(概要): Enhancing Visual Inspection Capability of Multi-Modal Large Language Models on Medical Time Series with Supportive Conformalized and Interpretable Small Specialized Models

論文の概要: Enhancing Visual Inspection Capability of Multi-Modal Large Language Models on Medical Time Series with Supportive Conformalized and Interpretable Small Specialized Models

arxiv url: http://arxiv.org/abs/2501.16215v1
Date: Mon, 27 Jan 2025 17:07:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-28 21:57:04.003231
Title: Enhancing Visual Inspection Capability of Multi-Modal Large Language Models on Medical Time Series with Supportive Conformalized and Interpretable Small Specialized Models
Title（参考訳）: 支援的コンフォーマル化と解釈可能な小型特殊化モデルを用いたマルチモーダル大言語モデルの医用時系列における視覚検査能力の向上
Authors: Huayu Li, Xiwen Chen, Ci Zhang, Stuart F. Quan, William D. S. Killgore, Shu-Fen Wung, Chen X. Chen, Geng Yuan, Jin Lu, Ao Li,
Abstract要約: 大規模言語モデル (LLM) は, 医用時系列データの視覚検査において顕著な機能を示す。小規模な専門モデル(SSM)は、目標とするタスクにおいて優れているが、複雑な臨床的意思決定に必要なコンテキスト推論は欠如している。本稿では,LCMをシームレスに統合する意思決定支援SSMであるConMILを提案する。
参考スコア（独自算出の注目度）: 10.465626812447018
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) exhibit remarkable capabilities in visual inspection of medical time-series data, achieving proficiency comparable to human clinicians. However, their broad scope limits domain-specific precision, and proprietary weights hinder fine-tuning for specialized datasets. In contrast, small specialized models (SSMs) excel in targeted tasks but lack the contextual reasoning required for complex clinical decision-making. To address these challenges, we propose ConMIL (Conformalized Multiple Instance Learning), a decision-support SSM that integrates seamlessly with LLMs. By using Multiple Instance Learning (MIL) to identify clinically significant signal segments and conformal prediction for calibrated set-valued outputs, ConMIL enhances LLMs' interpretative capabilities for medical time-series analysis. Experimental results demonstrate that ConMIL significantly improves the performance of state-of-the-art LLMs, such as ChatGPT4.0 and Qwen2-VL-7B. Specifically, \ConMIL{}-supported Qwen2-VL-7B achieves 94.92% and 96.82% precision for confident samples in arrhythmia detection and sleep staging, compared to standalone LLM accuracy of 46.13% and 13.16%. These findings highlight the potential of ConMIL to bridge task-specific precision and broader contextual reasoning, enabling more reliable and interpretable AI-driven clinical decision support.
Abstract（参考訳）: 大規模言語モデル(LLM)は、医療時系列データの視覚的検査において顕著な能力を示し、ヒト臨床医に匹敵する能力を発揮する。しかし、その範囲はドメイン固有の精度を制限しており、プロプライエタリな重み付けは特別なデータセットの微調整を妨げている。対照的に、小さな専門モデル(SSM)は、目標とするタスクに優れるが、複雑な臨床的意思決定に必要な文脈的推論は欠如している。これらの課題に対処するために,LLMとシームレスに統合された意思決定支援SSMであるConMIL(Conformalized Multiple Instance Learning)を提案する。マルチプルインスタンスラーニング (MIL) を用いて臨床的に重要な信号セグメントを同定し, 校正されたセット値出力のコンフォメーション予測を行うことで, 医療時系列分析におけるLCMの解釈能力を高める。実験の結果、ConMILはChatGPT4.0やQwen2-VL-7Bといった最先端LLMの性能を著しく向上することが示された。具体的には、Qwen2-VL-7Bが94.92%、96.82%の精度で不整脈の検出と睡眠のステージングを行うのに対し、スタンドアロンのLCMの精度は46.13%、13.16%である。これらの知見は、タスク固有の精度とより広いコンテキスト推論を橋渡しし、より信頼性と解釈可能なAI駆動型臨床決定サポートを可能にするConMILの可能性を強調している。

関連論文リスト

Towards Locally Deployable Fine-Tuned Causal Large Language Models for Mode Choice Behaviour [4.378407481656902]
本研究では,移動モード選択予測のためのオープンアクセス型ローカル展開型因果大言語モデル (LLM) の導入について検討した。提案した3つの選好データセットに対して11のLCMをベンチマークし,396の設定をテストし,79,000以上の合成通勤予測を生成した。 LiTransMCはパラメータ効率と損失マスキング戦略で微調整され、重み付きF1スコアは0.6845、ジェンセン=シャノンディバージェンスは0.000245に達した。
論文参考訳（メタデータ） (2025-07-29T02:03:37Z)
Structuring Radiology Reports: Challenging LLMs with Lightweight Models [5.01440254761063]
大規模言語モデル(LLM)は、臨床テキストの再構築、高い計算要求、透明性の欠如、データプライバシに関する懸念が現実的な展開を妨げていることを示す。我々は,MIMIC-CXRおよびCheXpert Plusデータセットからの放射線学レポートを構造化するために,軽量エンコーダデコーダモデル(300Mパラメータ)を特にT5およびBERT2BERTで検討する。我々の最良性能軽量モデルは、人間による注釈付きテストセット上で、プロンプトベースの手法で適応された全てのLCMより優れています。
論文参考訳（メタデータ） (2025-05-30T20:12:51Z)
Look & Mark: Leveraging Radiologist Eye Fixations and Bounding boxes in Multimodal Large Language Models for Chest X-ray Report Generation [2.821158017021184]
Look & Mark (L&M) は、放射線医学的アイフィクス(Look)とバウンディングボックスアノテーション(Mark)を統合した新しい接地固定戦略である。 LLaVA-OVは87.3%の臨床平均成績(C.AVG)を達成しており、L&Mとインコンテキストラーニングを組み合わせた汎用モデルもすべてのモデルの中で最高である。
論文参考訳（メタデータ） (2025-05-28T10:54:40Z)
Leveraging Embedding Techniques in Multimodal Machine Learning for Mental Illness Assessment [0.8458496687170665]
うつ病やPTSDなどの精神疾患の世界的な流行は、客観的でスケーラブルな診断ツールを必要とする。本稿では、テキスト、音声、ビデオデータに相補的な情報を活用することで、これらの課題に対処するためのマルチモーダル機械学習の可能性を検討する。大規模言語モデル予測の新たな統合を含む,データレベル,機能レベル,意思決定レベルの融合技術について検討する。
論文参考訳（メタデータ） (2025-04-02T14:19:06Z)
Benchmarking Open-Source Large Language Models on Healthcare Text Classification Tasks [2.7729041396205014]
本研究では,オープンソースの5つの大言語モデル(LLM)の分類性能を評価する。全てのモデルとタスクの組み合わせに対して、95%の信頼区間を有する精度、リコール、F1スコアを報告する。
論文参考訳（メタデータ） (2025-03-19T12:51:52Z)
Limitations of Large Language Models in Clinical Problem-Solving Arising from Inflexible Reasoning [3.3482359447109866]
LLM(Large Language Models)は、医療質問応答(QA)ベンチマークにおいて人間レベルの精度を達成した。オープンエンドの臨床シナリオをナビゲートする際の制限が最近示されている。医学的抽象化と推論コーパス(M-ARC)について紹介する。現状のo1モデルやGeminiモデルを含むLSMは,M-ARCの医師と比較して性能が劣ることがわかった。
論文参考訳（メタデータ） (2025-02-05T18:14:27Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
我々は、MLLMのマルチモーダル推論能力を高めるために、選好最適化(PO)プロセスを導入する。具体的には、自動選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。マルチモーダルCoT性能を向上するMPO(Mixed Preference Optimization)と呼ばれるシンプルな手法を開発した。
論文参考訳（メタデータ） (2024-11-15T18:59:27Z)
Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。 MIMIC-IIIでは最大10.8～15.0%、MIMIC-IVでは12.6～12.7%である。
論文参考訳（メタデータ） (2024-10-06T18:46:28Z)
CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。そこで本研究では,学習バランスを定量的に評価する尺度を提案する。さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文参考訳（メタデータ） (2024-07-29T23:18:55Z)
XAI4LLM. Let Machine Learning Models and LLMs Collaborate for Enhanced In-Context Learning in Healthcare [16.79952669254101]
多層構造プロンプトを用いたゼロショット/ファウショットインコンテキスト学習(ICL)のための新しい手法を開発した。また、ユーザと大規模言語モデル(LLM)間の2つのコミュニケーションスタイルの有効性についても検討する。本研究は,性別バイアスや偽陰性率などの診断精度とリスク要因を系統的に評価する。
論文参考訳（メタデータ） (2024-05-10T06:52:44Z)
How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。 GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文参考訳（メタデータ） (2024-02-20T18:31:27Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)
Combining Insights From Multiple Large Language Models Improves Diagnostic Accuracy [0.0]
大きな言語モデル (LLM) は診断支援ツールとして提案されるか、あるいは "curbside consults" の代替として言及される。個別の商業用LDMを問うことで得られた差分診断の精度を,同一LCMの組み合わせからの応答を集約して合成した差分診断の精度と比較した。
論文参考訳（メタデータ） (2024-02-13T21:24:21Z)
XAI for In-hospital Mortality Prediction via Multimodal ICU Data [57.73357047856416]
マルチモーダルICUデータを用いて病院内死亡率を予測するための,効率的で説明可能なAIソリューションを提案する。我々は,臨床データから異種入力を受信し,意思決定を行うマルチモーダル・ラーニングを我々のフレームワークに導入する。我々の枠組みは、医療研究において重要な要素の発見を容易にする他の臨床課題に容易に移行することができる。
論文参考訳（メタデータ） (2023-12-29T14:28:04Z)
End-to-End Breast Cancer Radiotherapy Planning via LMMs with Consistency Embedding [47.360760580820966]
放射線腫瘍学の分野に適した包括的大規模マルチモーダルモデル(LMM)であるRO-LMMを提案する。このモデルは臨床ワークフロー内の一連のタスクを効果的に管理し、臨床コンテキストの要約、放射線治療計画の提案、計画誘導されたターゲットボリュームセグメンテーションを含む。クリーン入力処理の整合性を維持しつつ,LMMのノイズ入力に対する堅牢性を向上する,CEFTune(Consistency Embedding Fine-Tuning)技術を提案する。
論文参考訳（メタデータ） (2023-11-27T14:49:06Z)
Surpassing GPT-4 Medical Coding with a Two-Stage Approach [1.7014913888753238]
GPT-4 LLMは、医療コーディングタスクのICD符号の過剰な数を予測する。 LLM-codexは,まずエビデンス提案を発生させ,LSTMに基づく検証段階を用いる2段階のICD符号予測手法である。我々のモデルは、医学的コーディングの精度、稀な符号の精度、文章レベルの証拠の特定を同時に達成する唯一の方法である。
論文参考訳（メタデータ） (2023-11-22T23:35:13Z)
Redefining Digital Health Interfaces with Large Language Models [69.02059202720073]
大規模言語モデル(LLM)は、複雑な情報を処理できる汎用モデルとして登場した。 LLMが臨床医とデジタル技術との新たなインターフェースを提供する方法を示す。自動機械学習を用いた新しい予後ツールを開発した。
論文参考訳（メタデータ） (2023-10-05T14:18:40Z)
Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。 ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文参考訳（メタデータ） (2023-10-01T12:02:59Z)
Mixed-Integer Projections for Automated Data Correction of EMRs Improve Predictions of Sepsis among Hospitalized Patients [7.639610349097473]
本稿では,領域制約として臨床専門知識をシームレスに統合する革新的プロジェクションに基づく手法を提案する。我々は、患者データの健全な範囲を規定する制約から補正されたデータの距離を測定する。 AUROCは0.865で、精度は0.922で、従来のMLモデルを上回る。
論文参考訳（メタデータ） (2023-08-21T15:14:49Z)
Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文参考訳（メタデータ） (2023-05-30T22:05:11Z)
Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文参考訳（メタデータ） (2022-07-18T19:16:56Z)
Performance of Dual-Augmented Lagrangian Method and Common Spatial Patterns applied in classification of Motor-Imagery BCI [68.8204255655161]
運動画像に基づく脳-コンピュータインタフェース(MI-BCI)は、神経リハビリテーションのための画期的な技術になる可能性がある。使用する脳波信号のノイズの性質のため、信頼性の高いBCIシステムは特徴の最適化と抽出のために特別な手順を必要とする。
論文参考訳（メタデータ） (2020-10-13T20:50:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。