論文の概要: MedCite: Can Language Models Generate Verifiable Text for Medicine?
- arxiv url: http://arxiv.org/abs/2506.06605v1
- Date: Sat, 07 Jun 2025 00:46:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.357529
- Title: MedCite: Can Language Models Generate Verifiable Text for Medicine?
- Title(参考訳): MedCite: 言語モデルは医療用の検証可能なテキストを生成することができるか?
- Authors: Xiao Wang, Mengjue Tan, Qiao Jin, Guangzhi Xiong, Yu Hu, Aidong Zhang, Zhiyong Lu, Minjia Zhang,
- Abstract要約: 既存のLLMベースの質問応答システムでは、引用生成と評価機能が欠如している。
医療用LLMを用いた引用生成の設計と評価を容易にする最初のエンドツーエンドフレームワークであるnameを紹介する。
本稿では,高品質な引用を生成する新しいマルチパス検索手法を提案する。
- 参考スコア(独自算出の注目度): 40.000282950108094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing LLM-based medical question-answering systems lack citation generation and evaluation capabilities, raising concerns about their adoption in practice. In this work, we introduce \name, the first end-to-end framework that facilitates the design and evaluation of citation generation with LLMs for medical tasks. Meanwhile, we introduce a novel multi-pass retrieval-citation method that generates high-quality citations. Our evaluation highlights the challenges and opportunities of citation generation for medical tasks, while identifying important design choices that have a significant impact on the final citation quality. Our proposed method achieves superior citation precision and recall improvements compared to strong baseline methods, and we show that evaluation results correlate well with annotation results from professional experts.
- Abstract(参考訳): 既存のLCMベースの医療質問応答システムでは、引用生成と評価能力が欠如しており、実際に採用されることへの懸念が高まっている。
本稿では,医療用LCMによる引用生成の設計と評価を容易にする,最初のエンドツーエンドフレームワークである \name を紹介する。
一方,高品質な引用を生成する新しいマルチパス検索手法を提案する。
本評価では, 最終引用品質に大きな影響を及ぼす重要な設計選択を識別しながら, 医療作業における引用生成の課題と機会を強調した。
提案手法は,強いベースライン法よりも優れた引用精度とリコール改善を実現し,評価結果が専門家の注釈結果とよく相関していることを示す。
関連論文リスト
- Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - MedHallBench: A New Benchmark for Assessing Hallucination in Medical Large Language Models [0.0]
医療大言語モデル(MLLM)は医療応用の可能性を示している。
幻覚に対する寛容性は、患者医療に重大なリスクをもたらす。
本稿では,MLLMにおける幻覚の評価と緩和のためのベンチマークフレームワークであるMedHallBenchを紹介する。
論文 参考訳(メタデータ) (2024-12-25T16:51:29Z) - ALiiCE: Evaluating Positional Fine-grained Citation Generation [54.19617927314975]
本稿では,微細な引用生成のための最初の自動評価フレームワークであるALiiCEを提案する。
我々のフレームワークはまず、文のクレームを依存性分析によって原子クレームに解析し、次に原子クレームレベルでの引用品質を計算する。
複数大言語モデルの2つの長文QAデータセット上での位置的きめ細かな引用生成性能を評価する。
論文 参考訳(メタデータ) (2024-06-19T09:16:14Z) - Comparative Analysis of Open-Source Language Models in Summarizing Medical Text Data [5.443548415516227]
大規模言語モデル(LLM)は,非構造化テキストデータに対する問合せおよび要約処理において,優れた性能を示した。
医用要約タスクにおけるオープンソースのLCMの性能分析のための評価手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T16:16:22Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。