論文の概要: From Prompt Optimization to Multi-Dimensional Credibility Evaluation: Enhancing Trustworthiness of Chinese LLM-Generated Liver MRI Reports
- arxiv url: http://arxiv.org/abs/2510.23008v2
- Date: Tue, 28 Oct 2025 02:12:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 13:20:32.904571
- Title: From Prompt Optimization to Multi-Dimensional Credibility Evaluation: Enhancing Trustworthiness of Chinese LLM-Generated Liver MRI Reports
- Title(参考訳): プロンプト最適化から多次元信頼性評価へ:中国のLLM肝MRIレポートの信頼性を高める
- Authors: Qiuli Wang, Jie Chen, Yongxu Liu, Xingpeng Zhang, Xiaoming Li, Wei Chen,
- Abstract要約: 大言語モデル (LLM) は画像所見から診断結果を生成する上で有望な性能を示した。
本研究は, MDCA (Multi-dimensional Credibility Assessment) フレームワークの導入により, LLM産生肝MRIの信頼性を高めることを目的とする。
- 参考スコア(独自算出の注目度): 13.226827332616134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated promising performance in generating diagnostic conclusions from imaging findings, thereby supporting radiology reporting, trainee education, and quality control. However, systematic guidance on how to optimize prompt design across different clinical contexts remains underexplored. Moreover, a comprehensive and standardized framework for assessing the trustworthiness of LLM-generated radiology reports is yet to be established. This study aims to enhance the trustworthiness of LLM-generated liver MRI reports by introducing a Multi-Dimensional Credibility Assessment (MDCA) framework and providing guidance on institution-specific prompt optimization. The proposed framework is applied to evaluate and compare the performance of several advanced LLMs, including Kimi-K2-Instruct-0905, Qwen3-235B-A22B-Instruct-2507, DeepSeek-V3, and ByteDance-Seed-OSS-36B-Instruct, using the SiliconFlow platform.
- Abstract(参考訳): 大型言語モデル (LLM) は画像所見から診断結果を生成する上で有望な性能を示し, 放射線学報告, 研修生教育, 品質管理をサポートする。
しかし、異なる臨床状況における迅速な設計の最適化方法に関する体系的なガイダンスは、未検討のままである。
また, LLM 生成放射線学報告の信頼性を評価するための総合的, 標準化された枠組みも確立されていない。
本研究は, MDCA (Multi-dimensional Credibility Assessment) フレームワークを導入し, 機関固有の即時最適化のガイダンスを提供することにより, LLM産生肝MRIレポートの信頼性を高めることを目的とする。
提案フレームワークは,SiiliconFlowプラットフォームを用いて,Kim-K2-Instruct-0905,Qwen3-235B-A22B-Instruct-2507,DeepSeek-V3,ByteDance-Seed-OSS-36B-Instructなど,先進的なLCMの性能評価と比較を行う。
関連論文リスト
- MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - Medical AI Consensus: A Multi-Agent Framework for Radiology Report Generation and Evaluation [0.2039123720459736]
放射線学のエコシステムにおけるマルチモーダルな臨床推論のためのベンチマークおよび評価環境として機能するマルチエージェント強化学習フレームワークを提案する。
提案フレームワークは,画像解析,特徴抽出,レポート生成,レビュー,評価を担当する10の特殊エージェントからなるモジュールアーキテクチャにおいて,大規模言語モデル(LLM)と大規模ビジョンモデル(LVM)を統合する。
論文 参考訳(メタデータ) (2025-09-22T04:31:27Z) - From Promise to Practical Reality: Transforming Diffusion MRI Analysis with Fast Deep Learning Enhancement [35.368152968098194]
FastFOD-Netは、FODを優れたパフォーマンスで強化し、臨床使用のためのトレーニング/推論効率を提供するエンドツーエンドのディープラーニングフレームワークである。
この研究は、拡散MRIの強化のための深層学習に基づく手法を、より広く採用し、臨床信頼を構築することを促進する。
論文 参考訳(メタデータ) (2025-08-13T17:56:29Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - MedGUIDE: Benchmarking Clinical Decision-Making in Large Language Models [10.46932473088646]
MedGUIDEは,Large Language Models (LLMs) を評価するための新しいベンチマークであり,ガイドラインに一貫性のある臨床診断を行う能力について紹介する。
MedGUIDEは17種類の癌にまたがる55のNCCN決定木から構築されている。
本研究では,10の臨床的,言語学的基準において,専門家ラベル付き報酬モデルとLLM-as-a-judgeアンサンブルを組み合わせた2段階の品質選択プロセスを適用し,高品質なサンプル7,747を選定した。
論文 参考訳(メタデータ) (2025-05-16T18:21:52Z) - A Multimodal Multi-Agent Framework for Radiology Report Generation [2.1477122604204433]
放射線診断レポート生成(RRG)は、医療画像から診断レポートを自動生成することを目的としている。
本稿では,段階的臨床推論ワークフローに適合するRRG用マルチモーダルマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-14T20:28:04Z) - ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - MEDIC: Towards a Comprehensive Framework for Evaluating LLMs in Clinical Applications [2.838746648891565]
臨床能力の5つの重要な側面にまたがって,大規模言語モデル(LLM)を評価するフレームワークであるMEDICを紹介する。
医療質問応答,安全性,要約,メモ生成,その他のタスクにおいて,MDDICを用いてLCMを評価する。
その結果, モデルサイズ, ベースライン, 医療用微調整モデル間の性能差が示され, 特定のモデル強度を必要とするアプリケーションに対して, モデル選択に影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2024-09-11T14:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。