論文の概要: MedPT: A Massive Medical Question Answering Dataset for Brazilian-Portuguese Speakers
- arxiv url: http://arxiv.org/abs/2511.11878v1
- Date: Fri, 14 Nov 2025 21:13:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.353294
- Title: MedPT: A Massive Medical Question Answering Dataset for Brazilian-Portuguese Speakers
- Title(参考訳): MedPT:ブラジルのポルトガル語話者のための大量の医療質問データベース
- Authors: Fernanda Bufon Färber, Iago Alves Brito, Julia Soares Dollis, Pedro Schindler Freire Brasil Ribeiro, Rafael Teixeira Sousa, Arlindo Rodrigues Galvão Filho,
- Abstract要約: ブラジル初の大規模実世界コーパスであるMedPTを紹介した。
患者と医師の相互作用から384,095個の質問応答対を合成する。
本分析では,患者と医師のコミュニケーションにおける自然な非対称性など,主題の幅(3,200トピックス)と独特の言語特性を明らかにした。
- 参考スコア(独自算出の注目度): 35.41469674626373
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) show transformative potential in healthcare, their development remains focused on high-resource languages, creating a critical barrier for others as simple translation fails to capture unique clinical and cultural nuances, such as endemic diseases. To address this, we introduce MedPT, the first large-scale, real-world corpus for Brazilian Portuguese, comprising 384,095 authentic question-answer pairs from patient-doctor interactions. The dataset underwent a meticulous multi-stage curation protocol, using a hybrid quantitative-qualitative analysis to filter noise and contextually enrich thousands of ambiguous queries. We further augmented the corpus via LLM-driven annotation, classifying questions into seven semantic types to capture user intent. Our analysis reveals its thematic breadth (3,200 topics) and unique linguistic properties, like the natural asymmetry in patient-doctor communication. To validate its utility, we benchmark a medical specialty routing task: fine-tuning a 1.7B parameter model achieves an outstanding 94\% F1-score on a 20-class setup. Furthermore, our qualitative error analysis shows misclassifications are not random but reflect genuine clinical ambiguities (e.g., between comorbid conditions), proving the dataset's deep semantic richness. We publicly release MedPT to foster the development of more equitable, accurate, and culturally-aware medical technologies for the Portuguese-speaking world.
- Abstract(参考訳): 大きな言語モデル(LLMs)は医療の変革の可能性を示しているが、その開発は依然としてハイリソース言語に焦点を合わせており、単純な翻訳では内因性疾患のようなユニークな臨床および文化的ニュアンスを捉えることができないため、他の人にとって重要な障壁となっている。
この問題を解決するために,ブラジル初の大規模実世界コーパスであるMedPTを紹介した。
このデータセットは、ノイズをフィルタリングし、数千のあいまいなクエリを文脈的に豊かにする、ハイブリッドな定量的品質分析を用いて、巧妙な多段階キュレーションプロトコルを実行した。
さらに、LLMによるアノテーションを用いてコーパスを拡張し、質問を7つの意味型に分類し、ユーザの意図を捉える。
本分析では,患者と医師のコミュニケーションにおける自然な非対称性など,主題の幅(3,200トピックス)と独特の言語特性を明らかにした。
1.7Bパラメータモデルを微調整すると、20クラスの設定で94\%のF1スコアが得られる。
さらに, 定性的誤り解析により, 誤分類はランダムではなく, 真の臨床的曖昧さを反映し, データセットの深い意味的豊かさを証明した。
我々は,ポルトガル語を話す世界に向けて,より公平で正確かつ文化的に認識された医療技術の開発を促進するために,MedPTを公開している。
関連論文リスト
- Arabic Large Language Models for Medical Text Generation [0.5483130283061118]
本研究では,アラビア語医療用テキスト生成のための大規模言語モデル(LLM)を提案する。
このシステムは、正確な医療アドバイス、診断、薬物レコメンデーション、およびユーザ入力に基づく治療計画を提供することによって、患者を支援するように設計されている。
論文 参考訳(メタデータ) (2025-09-12T09:37:26Z) - MedQARo: A Large-Scale Benchmark for Medical Question Answering in Romanian [50.767415194856135]
ルーマニア初の大規模医療QAベンチマークであるMedQARoを紹介する。
がん患者に関連する102,646のQAペアからなる高品質で大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2025-08-22T13:48:37Z) - Reinforced Correlation Between Vision and Language for Precise Medical AI Assistant [11.187690318227514]
RCMedは、入力と出力の両方におけるマルチモーダルアライメントを改善するフルスタックAIアシスタントである。
不規則な病変と微妙な解剖学的境界の文脈化において最先端の精度を達成する。
論文 参考訳(メタデータ) (2025-05-06T10:00:08Z) - Conversation AI Dialog for Medicare powered by Finetuning and Retrieval Augmented Generation [0.0]
大きな言語モデル(LLM)は、対話生成を含む自然言語処理タスクにおいて印象的な機能を示している。
本研究の目的は、LoRAによる微調整とRetrieval-Augmented Generationフレームワークという、2つの重要な技術の比較分析を行うことである。
論文 参考訳(メタデータ) (2025-02-04T11:50:40Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Cross-lingual Argument Mining in the Medical Domain [6.0158981171030685]
注釈付きデータがない医療用テキストでArgument Mining(AM)を実行する方法を示す。
我々の研究は、アノテーション(データ転送)を英語から特定のターゲット言語に自動翻訳・投影することは、注釈付きデータを生成する効果的な方法であることを示している。
また、スペイン語で自動生成されたデータを用いて、元の英語単言語設定の結果を改善する方法も示す。
論文 参考訳(メタデータ) (2023-01-25T11:21:12Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。