論文の概要: Overview of the ClinIQLink 2025 Shared Task on Medical Question-Answering
- arxiv url: http://arxiv.org/abs/2506.21597v1
- Date: Wed, 18 Jun 2025 19:56:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-07 02:47:44.316289
- Title: Overview of the ClinIQLink 2025 Shared Task on Medical Question-Answering
- Title(参考訳): ClinIQLink 2025共有質問書の概要
- Authors: Brandon Colelough, Davis Bartels, Dina Demner-Fushman,
- Abstract要約: ClinIQLinkタスクは、ジェネラル・プラクティショナーのレベルを目標とした医学指向の質問応答において、大規模言語モデル(LLM)をストレステストするように設計されている。
この課題は、専門家が認定した4,978の質問応答ペアに、7つのフォーマットをカバーする。
自動ハーネスは、3階層の埋め込みメトリックで、正確なマッチとオープンエンドアイテムでクローズドエンドアイテムをスコアする。
その後の医師パネルは、上位モデルの反応を監査する。
- 参考スコア(独自算出の注目度): 11.137087573421256
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we present an overview of ClinIQLink, a shared task, collocated with the 24th BioNLP workshop at ACL 2025, designed to stress-test large language models (LLMs) on medically-oriented question answering aimed at the level of a General Practitioner. The challenge supplies 4,978 expert-verified, medical source-grounded question-answer pairs that cover seven formats: true/false, multiple choice, unordered list, short answer, short-inverse, multi-hop, and multi-hop-inverse. Participating systems, bundled in Docker or Apptainer images, are executed on the CodaBench platform or the University of Maryland's Zaratan cluster. An automated harness (Task 1) scores closed-ended items by exact match and open-ended items with a three-tier embedding metric. A subsequent physician panel (Task 2) audits the top model responses.
- Abstract(参考訳): 本稿では,ACL 2025の第24回BioNLPワークショップと連携した共有タスクであるClinIQLinkの概要を紹介する。
このチャレンジは4,978人の専門家が検証した、医療ソースによる質問応答ペアを提供しており、真/偽、複数の選択、順序のないリスト、短い答え、短い逆、マルチホップ、マルチホップの7つのフォーマットをカバーしている。
DockerまたはApptainerイメージにバンドルされた参加システムは、CodaBenchプラットフォームまたはメリーランド大学のZaratanクラスタ上で実行される。
自動ハーネス(Task)
1) 密集した項目を正確な一致でスコアし, 3段階の埋め込み基準で開封した項目をスコアする。
その後の医師会(Task)
2) 上位モデルのレスポンスを監査する。
関連論文リスト
- Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - MediFact at MEDIQA-M3G 2024: Medical Question Answering in Dermatology with Multimodal Learning [0.0]
本稿では,オープンエンド医療質問応答(QA)のための弱教師付き学習アプローチを提案することによって,従来の手法の限界に対処する。
本システムは,VGG16-CNN-SVMモデルを用いて,利用可能なMEDIQA-M3G画像を利用する。
この研究は、医療QA研究を前進させ、臨床意思決定支援システムへの道を切り開き、最終的に医療提供を改善する。
論文 参考訳(メタデータ) (2024-04-27T20:03:47Z) - OccuQuest: Mitigating Occupational Bias for Inclusive Large Language
Models [73.49209444768057]
emphOccuQuestという名前のインストラクションチューニングデータセットを作成し、26の職業カテゴリで1,000以上の職業をカバーする11000以上のプロンプト補完ペアと30,000以上の対話を含む。
次に、OccuQuest上でLLaMAを微調整し、OccuLLaMAを得る。
論文 参考訳(メタデータ) (2023-10-25T10:06:17Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - Multi-Perspective Abstractive Answer Summarization [76.10437565615138]
コミュニティ質問応答フォーラムには、幅広い質問に対する回答の豊富なリソースが含まれている。
マルチパースペクティブな回答要約の目標は、答えのすべての観点を含む要約を作成することである。
本研究は,多視点抽象要約を自動生成する新しいデータセット作成手法を提案する。
論文 参考訳(メタデータ) (2021-04-17T13:15:29Z) - Interpretable Multi-Step Reasoning with Knowledge Extraction on Complex
Healthcare Question Answering [89.76059961309453]
HeadQAデータセットには、公衆医療専門試験で認可された複数の選択質問が含まれている。
これらの質問は、現在のQAシステムにとって最も難しいものです。
知識抽出フレームワーク(MurKe)を用いた多段階推論を提案する。
市販の事前訓練モデルを完全に活用しようと努力しています。
論文 参考訳(メタデータ) (2020-08-06T02:47:46Z) - UNCC Biomedical Semantic Question Answering Systems. BioASQ: Task-7B,
Phase-B [1.976652238476722]
本稿では,タスク7b,フェーズB,実行解答タスクについて述べる。
これらの質問回答(QA)タスクには、Factoid、Yes/No、List Type Questioningなどが含まれる。
本システムは文脈単語埋め込みモデルに基づく。
論文 参考訳(メタデータ) (2020-02-05T20:43:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。