論文の概要: DeCode: Decoupling Content and Delivery for Medical QA
- arxiv url: http://arxiv.org/abs/2601.02123v1
- Date: Mon, 05 Jan 2026 13:54:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.160577
- Title: DeCode: Decoupling Content and Delivery for Medical QA
- Title(参考訳): DeCode: 医療QAのコンテンツとデリバリの分離
- Authors: Po-Jen Ko, Chen-Han Tsai, Yu-Shao Peng,
- Abstract要約: 大規模言語モデル(LLM)は強力な医学的知識を示し、事実的に正確な応答を生成できる。
DeCodeは、既存のLCMに適応して、臨床環境でコンテキスト化された回答を生成する、トレーニング不要で、モデルに依存しないフレームワークである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) exhibit strong medical knowledge and can generate factually accurate responses. However, existing models often fail to account for individual patient contexts, producing answers that are clinically correct yet poorly aligned with patients' needs. In this work, we introduce DeCode, a training-free, model-agnostic framework that adapts existing LLMs to produce contextualized answers in clinical settings. We evaluate DeCode on OpenAI HealthBench, a comprehensive and challenging benchmark designed to assess clinical relevance and validity of LLM responses. DeCode improves the previous state of the art from $28.4\%$ to $49.8\%$, corresponding to a $75\%$ relative improvement. Experimental results suggest the effectiveness of DeCode in improving clinical question answering of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は強力な医学的知識を示し、事実的に正確な応答を生成できる。
しかし、既存のモデルは個々の患者コンテキストを考慮せず、臨床的に正しいが、患者のニーズに合致しない回答を生み出すことが多い。
そこで本研究では,既存のLCMに適応して,臨床環境における文脈的回答を生成する,トレーニングフリーでモデルに依存しないフレームワークであるDeCodeを紹介する。
OpenAI HealthBench における DeCode の評価を行った。このベンチマークは LLM 応答の臨床的妥当性と妥当性を評価するための総合的かつ挑戦的なベンチマークである。
DeCodeは以前の最先端を28.4 %$から49.8 %$に改善し、相対的な改善は75 %$である。
臨床質問応答の改善にDeCodeが有効であることが実験的に示唆された。
関連論文リスト
- Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - OLAPH: Improving Factuality in Biomedical Long-form Question Answering [15.585833125854418]
MedLFQAは、バイオメディカルドメインに関連する長文質問回答データセットを用いて再構成されたベンチマークデータセットである。
また,コスト効率と多面的自動評価を利用した,シンプルで斬新なフレームワークであるOLAPHを提案する。
以上の結果から,OLAPHフレームワークでトレーニングした7B LLMでは,医療専門家の回答に匹敵する回答が得られた。
論文 参考訳(メタデータ) (2024-05-21T11:50:16Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - An Automatic Evaluation Framework for Multi-turn Medical Consultations
Capabilities of Large Language Models [22.409334091186995]
大型言語モデル(LLM)はしばしば幻覚に悩まされ、過度に自信があるが誤った判断を下す。
本稿では,マルチターンコンサルテーションにおける仮想医師としてのLCMの実用能力を評価するための自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-05T09:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。