論文の概要: HealthBranches: Synthesizing Clinically-Grounded Question Answering Datasets via Decision Pathways
- arxiv url: http://arxiv.org/abs/2508.07308v1
- Date: Sun, 10 Aug 2025 11:45:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.804964
- Title: HealthBranches: Synthesizing Clinically-Grounded Question Answering Datasets via Decision Pathways
- Title(参考訳): HealthBranches: 意思決定経路によるデータに対する臨床調査の回答を合成する
- Authors: Cristian Cosentino, Annamaria Defilippo, Marco Dossena, Christopher Irwin, Sara Joubbi, Pietro Liò,
- Abstract要約: HealthBranchesは、医療質問回答(Q&A)のための新しいベンチマークデータセット
このデータセットは半自動パイプラインを通じて生成され、医療ソースから関連する質問や回答を持つ現実的な患者に明確な決定経路を変換する。
17の医療トピックにわたる4,063のケーススタディをカバーし、各データポイントは臨床的に検証された推論チェーンに基づいています。
- 参考スコア(独自算出の注目度): 12.855316833585908
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: HealthBranches is a novel benchmark dataset for medical Question-Answering (Q&A), specifically designed to evaluate complex reasoning in Large Language Models (LLMs). This dataset is generated through a semi-automated pipeline that transforms explicit decision pathways from medical source into realistic patient cases with associated questions and answers. Covering 4,063 case studies across 17 healthcare topics, each data point is based on clinically validated reasoning chains. HealthBranches supports both open-ended and multiple-choice question formats and uniquely includes the full reasoning path for each Q&A. Its structured design enables robust evaluation of LLMs' multi-step inference capabilities, including their performance in structured Retrieval-Augmented Generation (RAG) contexts. HealthBranches establishes a foundation for the development of more trustworthy, interpretable, and clinically reliable LLMs in high-stakes domains while also serving as a valuable resource for educational purposes.
- Abstract(参考訳): HealthBranchesは、大規模言語モデル(LLM)における複雑な推論を評価するために特別に設計された、医療質問回答(Q&A)のための新しいベンチマークデータセットである。
このデータセットは半自動パイプラインを通じて生成され、医療ソースから関連する質問や回答を持つ現実的な患者に明確な決定経路を変換する。
17の医療トピックにわたる4,063のケーススタディをカバーし、各データポイントは臨床的に検証された推論チェーンに基づいています。
HealthBranchesは、オープンエンドと複数選択の問合せフォーマットをサポートし、各Q&Aの完全な推論パスをユニークに含んでいる。
構造化された設計により、構造化されたRetrieval-Augmented Generation(RAG)コンテキストでの性能を含む、LLMのマルチステップ推論能力の堅牢な評価が可能となる。
HealthBranchesは、より信頼性が高く、解釈可能で、臨床的に信頼性の高いLSMを高い領域で開発するための基盤を確立し、同時に教育目的の貴重な資源としても機能している。
関連論文リスト
- Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - HealthQ: Unveiling Questioning Capabilities of LLM Chains in Healthcare Conversations [20.31796453890812]
HealthQは、医療会話における大規模言語モデル(LLM)の質問機能を評価するためのフレームワークである。
我々は LLM の判断を統合して, 具体性, 妥当性, 有用性など, 様々な指標を用いて, 生成した質問を評価する。
医療談話における質問機能評価のための最初の体系的枠組みを提示し、モデルに依存しない評価手法を確立し、高品質な質問をリンクして患者の情報引用を改善するための実証的証拠を提供する。
論文 参考訳(メタデータ) (2024-09-28T23:59:46Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - EHRNoteQA: An LLM Benchmark for Real-World Clinical Practice Using Discharge Summaries [9.031182965159976]
大規模言語モデル(LLM)は、大規模で複雑なデータを効率的に分析する可能性を示している。
我々は,MIMIC-IV EHR上に構築された新しいベンチマークであるEHRNoteQAを紹介した。
EHRNoteQAには、複数の放電サマリーにまたがる情報を必要とし、実際の臨床検査の複雑さと多様性を反映した8つの多様なトピックをカバーする質問が含まれている。
論文 参考訳(メタデータ) (2024-02-25T09:41:50Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。