論文の概要: HEAD-QA v2: Expanding a Healthcare Benchmark for Reasoning
- arxiv url: http://arxiv.org/abs/2511.15355v1
- Date: Wed, 19 Nov 2025 11:31:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.782012
- Title: HEAD-QA v2: Expanding a Healthcare Benchmark for Reasoning
- Title(参考訳): HEAD-QA v2: 推論のためのヘルスケアベンチマークを拡張する
- Authors: Alexis Correa-Guillén, Carlos Gómez-Rodríguez, David Vilares,
- Abstract要約: HEAD-QA v2は、スペイン語/英語のヘルスケアマルチ選択推論データセットの拡張および更新版である。
スペインの10年間の専門試験から、データセットを12,000以上の質問に拡張します。
結果は,モデルスケールと本質的推論能力が主要因であり,限られた利得を得る複雑な推論戦略が特徴であることが示唆された。
- 参考スコア(独自算出の注目度): 8.449618916655032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce HEAD-QA v2, an expanded and updated version of a Spanish/English healthcare multiple-choice reasoning dataset originally released by Vilares and Gómez-Rodríguez (2019). The update responds to the growing need for high-quality datasets that capture the linguistic and conceptual complexity of healthcare reasoning. We extend the dataset to over 12,000 questions from ten years of Spanish professional exams, benchmark several open-source LLMs using prompting, RAG, and probability-based answer selection, and provide additional multilingual versions to support future work. Results indicate that performance is mainly driven by model scale and intrinsic reasoning ability, with complex inference strategies obtaining limited gains. Together, these results establish HEAD-QA v2 as a reliable resource for advancing research on biomedical reasoning and model improvement.
- Abstract(参考訳): HEAD-QA v2は、ViralesとGómez-Rodríguezが2019年にリリースしたスペイン語/英語の医療多重選択推論データセットの拡張および更新版である。
このアップデートは、医療推論の言語的、概念的な複雑さを捉えた高品質なデータセットの必要性の高まりに対応している。
データセットを10年間のスペインのプロフェッショナル試験から12,000以上の質問に拡張し、プロンプト、RAG、確率ベースの回答選択を使用していくつかのオープンソースのLCMをベンチマークし、将来の作業をサポートするための追加の多言語バージョンを提供する。
結果は,モデルスケールと本質的推論能力が主要因であり,限られた利得を得る複雑な推論戦略が特徴であることが示唆された。
これらの結果とともに, HEAD-QA v2は, 生物医学的推論とモデル改善の研究を進めるための信頼性の高い資源として確立された。
関連論文リスト
- MedQARo: A Large-Scale Benchmark for Medical Question Answering in Romanian [50.767415194856135]
ルーマニア初の大規模医療QAベンチマークであるMedQARoを紹介する。
がん患者に関連する102,646のQAペアからなる高品質で大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2025-08-22T13:48:37Z) - MedArabiQ: Benchmarking Large Language Models on Arabic Medical Tasks [8.379270814399431]
本研究は、7つのアラビア医療タスクからなる新しいベンチマークデータセットであるMedArabiQを紹介する。
筆者らはまず,過去の医学試験と公開データセットを用いてデータセットを構築した。
次に、バイアス緩和を含む様々なLCM機能を評価するために、異なる修正を導入した。
論文 参考訳(メタデータ) (2025-05-06T11:07:26Z) - Explanatory Argument Extraction of Correct Answers in Resident Medical
Exams [5.399800035598185]
本稿では, 正しい回答に対する説明的議論だけでなく, 誤った回答が正しい理由を推論するための議論を含む新しいデータセットを提案する。
このベンチマークにより,医師が作成した正しい回答の説明を識別する新しい抽出タスクを構築できる。
論文 参考訳(メタデータ) (2023-12-01T13:22:35Z) - Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。
我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。
回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T17:57:46Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Towards More Equitable Question Answering Systems: How Much More Data Do
You Need? [15.401330338654203]
ステップバックして、既存のリソースを最大限に活用して、多くの言語でQAシステムを開発するためのアプローチを研究します。
具体的には、自動翻訳とコンテキスト-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せの順に拡張された数ショットアプローチの有効性を評価するために、広範囲に分析を行った。
我々は、QAデータセットやシステムの言語カバレッジを高めることを目的として、固定アノテーション予算をより活用するための将来のデータセット開発活動を提案する。
論文 参考訳(メタデータ) (2021-05-28T21:32:04Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。