論文の概要: MedCite: Can Language Models Generate Verifiable Text for Medicine?
- arxiv url: http://arxiv.org/abs/2506.06605v1
- Date: Sat, 07 Jun 2025 00:46:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.357529
- Title: MedCite: Can Language Models Generate Verifiable Text for Medicine?
- Title(参考訳): MedCite: 言語モデルは医療用の検証可能なテキストを生成することができるか?
- Authors: Xiao Wang, Mengjue Tan, Qiao Jin, Guangzhi Xiong, Yu Hu, Aidong Zhang, Zhiyong Lu, Minjia Zhang,
- Abstract要約: 既存のLLMベースの質問応答システムでは、引用生成と評価機能が欠如している。
医療用LLMを用いた引用生成の設計と評価を容易にする最初のエンドツーエンドフレームワークであるnameを紹介する。
本稿では,高品質な引用を生成する新しいマルチパス検索手法を提案する。
- 参考スコア(独自算出の注目度): 40.000282950108094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing LLM-based medical question-answering systems lack citation generation and evaluation capabilities, raising concerns about their adoption in practice. In this work, we introduce \name, the first end-to-end framework that facilitates the design and evaluation of citation generation with LLMs for medical tasks. Meanwhile, we introduce a novel multi-pass retrieval-citation method that generates high-quality citations. Our evaluation highlights the challenges and opportunities of citation generation for medical tasks, while identifying important design choices that have a significant impact on the final citation quality. Our proposed method achieves superior citation precision and recall improvements compared to strong baseline methods, and we show that evaluation results correlate well with annotation results from professional experts.
- Abstract(参考訳): 既存のLCMベースの医療質問応答システムでは、引用生成と評価能力が欠如しており、実際に採用されることへの懸念が高まっている。
本稿では,医療用LCMによる引用生成の設計と評価を容易にする,最初のエンドツーエンドフレームワークである \name を紹介する。
一方,高品質な引用を生成する新しいマルチパス検索手法を提案する。
本評価では, 最終引用品質に大きな影響を及ぼす重要な設計選択を識別しながら, 医療作業における引用生成の課題と機会を強調した。
提案手法は,強いベースライン法よりも優れた引用精度とリコール改善を実現し,評価結果が専門家の注釈結果とよく相関していることを示す。
関連論文リスト
- Evaluating Large Language Models for Evidence-Based Clinical Question Answering [4.101088122511548]
大規模言語モデル (LLMs) は, 医学的, 臨床的応用において著しく進歩している。
Cochraneの体系的レビューと臨床ガイドラインから得られたベンチマークをキュレートする。
我々はソースと臨床領域間で一貫したパフォーマンスパターンを観察する。
論文 参考訳(メタデータ) (2025-09-13T15:03:34Z) - Biomedical Literature Q&A System Using Retrieval-Augmented Generation (RAG) [0.0]
本報告では, バイオメディカル文献質問応答システム(Q&A)について述べる。
このシステムは、PubMedの記事、キュレートされたQ&Aデータセット、医療百科事典など、さまざまなソースを統合している。
このシステムは一般の医療クエリとドメイン固有のタスクの両方をサポートし、乳がんの文献に焦点を絞った評価を行う。
論文 参考訳(メタデータ) (2025-09-05T21:29:52Z) - Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。
本稿は、この新興分野に関する最初の体系的なレビューを提供する。
本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文 参考訳(メタデータ) (2025-08-01T14:41:31Z) - GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning [50.94508930739623]
医学的視覚的質問応答は、医学的イメージに基づいた自然言語的質問にモデルで答えることによって、臨床的な意思決定を支援することを目的としている。
現状の手法は, 信頼性の限界や解釈可能性の低下に悩まされており, 臨床医や患者がモデル生成の回答を理解し, 信頼する能力が損なわれている。
この研究はまず、回答生成を中間的推論ステップに分解するThinking with Visual Groundingデータセットを提案する。
本稿では,強化学習のための新たな報奨機構を導入し,モデル推論プロセスと最終解の整合性を改善した。
論文 参考訳(メタデータ) (2025-06-22T08:09:58Z) - Med-REFL: Medical Reasoning Enhancement via Self-Corrected Fine-grained Reflection [7.584796006142439]
Med-REFL, underlinetextbfMedical underlinetextbfReasoning underlinetextbfEnhancement via self-corrected underlinetextbfFine-grained refunderlinetextbfLection。
本手法は,医学的疑問を微粒な推論経路に分解し,各ステップとそのその後のリフレクションを定量的に評価する。
論文 参考訳(メタデータ) (2025-06-11T14:58:38Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - MedHallBench: A New Benchmark for Assessing Hallucination in Medical Large Language Models [0.0]
医療大言語モデル(MLLM)は医療応用の可能性を示している。
幻覚に対する寛容性は、患者医療に重大なリスクをもたらす。
本稿では,MLLMにおける幻覚の評価と緩和のためのベンチマークフレームワークであるMedHallBenchを紹介する。
論文 参考訳(メタデータ) (2024-12-25T16:51:29Z) - ALiiCE: Evaluating Positional Fine-grained Citation Generation [54.19617927314975]
本稿では,微細な引用生成のための最初の自動評価フレームワークであるALiiCEを提案する。
我々のフレームワークはまず、文のクレームを依存性分析によって原子クレームに解析し、次に原子クレームレベルでの引用品質を計算する。
複数大言語モデルの2つの長文QAデータセット上での位置的きめ細かな引用生成性能を評価する。
論文 参考訳(メタデータ) (2024-06-19T09:16:14Z) - Comparative Analysis of Open-Source Language Models in Summarizing Medical Text Data [5.443548415516227]
大規模言語モデル(LLM)は,非構造化テキストデータに対する問合せおよび要約処理において,優れた性能を示した。
医用要約タスクにおけるオープンソースのLCMの性能分析のための評価手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T16:16:22Z) - Zero-Shot Medical Information Retrieval via Knowledge Graph Embedding [27.14794371879541]
本稿では、ゼロショット医療情報検索(MIR)の新しいアプローチであるMedFusionRankを紹介する。
提案手法は、学習済みのBERTスタイルのモデルを用いて、コンパクトだが情報的なキーワードを抽出する。
これらのキーワードは、医療知識グラフ内の概念エンティティにリンクすることで、ドメイン知識に富む。
論文 参考訳(メタデータ) (2023-10-31T16:26:33Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。