論文の概要: IMB: An Italian Medical Benchmark for Question Answering
- arxiv url: http://arxiv.org/abs/2510.18468v1
- Date: Tue, 21 Oct 2025 09:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.336328
- Title: IMB: An Italian Medical Benchmark for Question Answering
- Title(参考訳): IMB: 質問応答のためのイタリアの医療ベンチマーク
- Authors: Antonio Romano, Giuseppe Riccio, Mariano Barone, Marco Postiglione, Vincenzo Moscato,
- Abstract要約: イタリアの総合医療ベンチマークであるtextbfIMB-QA と textbfIMB-MCQA の2つの項目について検討した。
本稿では,医学フォーラムデータの明瞭さと一貫性を向上させるために,LLM(Large Language Models)をいかに活用できるかを,本来の意味と会話スタイルを維持しながら示す。
Retrieval Augmented Generation (RAG) とドメイン固有の微調整による実験により、医学的問題において、特定の適応戦略がより大きな汎用モデルより優れていることが判明した。
- 参考スコア(独自算出の注目度): 11.555285143713315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online medical forums have long served as vital platforms where patients seek professional healthcare advice, generating vast amounts of valuable knowledge. However, the informal nature and linguistic complexity of forum interactions pose significant challenges for automated question answering systems, especially when dealing with non-English languages. We present two comprehensive Italian medical benchmarks: \textbf{IMB-QA}, containing 782,644 patient-doctor conversations from 77 medical categories, and \textbf{IMB-MCQA}, comprising 25,862 multiple-choice questions from medical specialty examinations. We demonstrate how Large Language Models (LLMs) can be leveraged to improve the clarity and consistency of medical forum data while retaining their original meaning and conversational style, and compare a variety of LLM architectures on both open and multiple-choice question answering tasks. Our experiments with Retrieval Augmented Generation (RAG) and domain-specific fine-tuning reveal that specialized adaptation strategies can outperform larger, general-purpose models in medical question answering tasks. These findings suggest that effective medical AI systems may benefit more from domain expertise and efficient information retrieval than from increased model scale. We release both datasets and evaluation frameworks in our GitHub repository to support further research on multilingual medical question answering: https://github.com/PRAISELab-PicusLab/IMB.
- Abstract(参考訳): オンライン医療フォーラムは長い間、患者が専門的な医療アドバイスを求め、膨大な量の貴重な知識を生み出す重要なプラットフォームとして機能してきた。
しかしながら、フォーラム相互作用の非公式な性質と言語的複雑さは、特に英語以外の言語を扱う場合、自動質問応答システムに重大な課題をもたらす。
イタリアの総合医療ベンチマークでは、77の医療カテゴリーから772,644人の患者と医師の会話を収録した \textbf{IMB-QA} と、25,862人の医療専門試験からの多票質問を含む \textbf{IMB-MCQA} を提示した。
本研究では,Large Language Models (LLMs) を用いて,医療用フォーラムデータの明瞭さと一貫性を向上し,その本来の意味と会話スタイルを維持しつつ,様々なLLMアーキテクチャを比較した。
Retrieval Augmented Generation (RAG) とドメイン固有の微調整による実験により、医療質問応答タスクにおいて、専門的な適応戦略がより大きな汎用モデルを上回ることが判明した。
これらの結果から、効果的な医療AIシステムは、モデルスケールの増加よりも、ドメインの専門知識と効率的な情報検索の恩恵を受ける可能性が示唆された。
私たちはGitHubリポジトリにデータセットと評価フレームワークをリリースし、マルチリンガルな医療質問に対するさらなる研究を支援しています。
関連論文リスト
- MedQARo: A Large-Scale Benchmark for Medical Question Answering in Romanian [50.767415194856135]
ルーマニア初の大規模医療QAベンチマークであるMedQARoを紹介する。
がん患者に関連する102,646のQAペアからなる高品質で大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2025-08-22T13:48:37Z) - LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - Two-Layer Retrieval-Augmented Generation Framework for Low-Resource Medical Question Answering Using Reddit Data: Proof-of-Concept Study [4.769236554995528]
本稿では、健康関連トピックに関連する新たな問題に答える医療質問に対する検索強化世代アーキテクチャを提案する。
筆者らのフレームワークは,大量のユーザ生成ソーシャルメディアデータから医療質問に回答するために,個別の要約と集約された要約を生成する。
GPT-4 と Nous-Hermes-2-7B-DPO を用いて評価すると, 関連性, 長さ, 幻覚, 包括性, コヒーレンスに比較して高いスコアが得られた。
論文 参考訳(メタデータ) (2024-05-29T20:56:52Z) - Large Language Models for Multi-Choice Question Classification of Medical Subjects [0.2020207586732771]
我々は, 深層ニューラルネットワークを用いて, 被ばく被ばく被ばく者への質問の分類を行う。
医療分野におけるマルチクラス化タスクにおいて,AI と LLM の能力について述べる。
論文 参考訳(メタデータ) (2024-03-21T17:36:08Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Explanatory Argument Extraction of Correct Answers in Resident Medical
Exams [5.399800035598185]
本稿では, 正しい回答に対する説明的議論だけでなく, 誤った回答が正しい理由を推論するための議論を含む新しいデータセットを提案する。
このベンチマークにより,医師が作成した正しい回答の説明を識別する新しい抽出タスクを構築できる。
論文 参考訳(メタデータ) (2023-12-01T13:22:35Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - MedDG: An Entity-Centric Medical Consultation Dataset for Entity-Aware
Medical Dialogue Generation [86.38736781043109]
MedDGという12種類の消化器疾患に関連する大規模医用対話データセットを構築し,公開する。
MedDGデータセットに基づく2種類の医療対話タスクを提案する。1つは次のエンティティ予測であり、もう1つは医師の反応生成である。
実験結果から,プレトレイン言語モデルと他のベースラインは,両方のタスクに苦戦し,データセットの性能が劣ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T03:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。