論文の概要: !MSA at AraHealthQA 2025 Shared Task: Enhancing LLM Performance for Arabic Clinical Question Answering through Prompt Engineering and Ensemble Learning
- arxiv url: http://arxiv.org/abs/2509.11365v1
- Date: Sun, 14 Sep 2025 17:39:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.051271
- Title: !MSA at AraHealthQA 2025 Shared Task: Enhancing LLM Performance for Arabic Clinical Question Answering through Prompt Engineering and Ensemble Learning
- Title(参考訳): !MSA at AraHealthQA 2025 Shared Task: Enhancing LLM Performance for Arabic Clinical Question Answering through Prompt Engineering and Ensemble Learning (英語)
- Authors: Mohamed Tarek, Seif Ahmed, Mohamed Basem,
- Abstract要約: AraHealthQA-2025共有タスクのトラック2(General Arabic Health QA, MedArabiQ)について述べる。
本手法は,アラビア語の臨床的文脈において,サブタスク1(複数選択質問応答)とサブタスク2(開放質問応答)の2位を確保した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We present our systems for Track 2 (General Arabic Health QA, MedArabiQ) of the AraHealthQA-2025 shared task, where our methodology secured 2nd place in both Sub-Task 1 (multiple-choice question answering) and Sub-Task 2 (open-ended question answering) in Arabic clinical contexts. For Sub-Task 1, we leverage the Gemini 2.5 Flash model with few-shot prompting, dataset preprocessing, and an ensemble of three prompt configurations to improve classification accuracy on standard, biased, and fill-in-the-blank questions. For Sub-Task 2, we employ a unified prompt with the same model, incorporating role-playing as an Arabic medical expert, few-shot examples, and post-processing to generate concise responses across fill-in-the-blank, patient-doctor Q&A, GEC, and paraphrased variants.
- Abstract(参考訳): AraHealthQA-2025共有タスクのトラック2(General Arabic Health QA, MedArabiQ)について,本手法がアラビアの臨床文脈におけるサブタスク1(multiple-choice question answering)とサブタスク2(open-ended question answering)の2位を確保した。
Sub-Task 1では、数ショットプロンプト、データセット前処理、および3つのプロンプト構成のアンサンブルを備えたGemini 2.5 Flashモデルを活用して、標準的、偏りがあり、ブランクの質問に対する分類精度を改善する。
サブタスク2では、同じモデルによる統一的なプロンプトを採用し、アラビアの医療専門家としてのロールプレイング、少数ショット例、および後処理を取り入れて、補充されたブランク、患者医師Q&A、EC、パラフレーズ付き変種間の簡潔な応答を生成する。
関連論文リスト
- AraHealthQA 2025: The First Shared Task on Arabic Health Question Answering [23.830127107611744]
AraHealthQA 2025, Comprehensive Arabic Health Question Answering Shared Task, held with ArabicNLP 2025 (co-located with EMNLP 2025)
メンタルQAは、アラビア語のメンタルヘルスのQ&A(不安、うつ病、スティグマの減少など)とMedArabiQに焦点を当て、内科、小児科、臨床意思決定など幅広い医療分野をカバーする。
データセット作成,タスク設計,評価フレームワーク,参加統計,ベースラインシステムについて概説し,その結果を概説する。
論文 参考訳(メタデータ) (2025-08-27T16:54:09Z) - MedQARo: A Large-Scale Benchmark for Medical Question Answering in Romanian [50.767415194856135]
ルーマニア初の大規模医療QAベンチマークであるMedQARoを紹介する。
がん患者に関連する102,646のQAペアからなる高品質で大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2025-08-22T13:48:37Z) - Benchmarking the Medical Understanding and Reasoning of Large Language Models in Arabic Healthcare Tasks [1.3521447196536418]
本研究では、現在最先端の大規模言語モデルが、アラビア語の医療知識を如何に示し、具体化しているかについて検討する。
我々は、MedArabiQ2025トラックのアラビアNLP AraHealthQAチャレンジで提案された医療データセットを用いて、複数のLCMをベンチマークした。
その結果, 正解予測精度の有意な変動と, 生成した解のセマンティックアライメントの低変化が明らかになった。
論文 参考訳(メタデータ) (2025-08-13T10:41:17Z) - Text-to-SPARQL Goes Beyond English: Multilingual Question Answering Over Knowledge Graphs through Human-Inspired Reasoning [51.203811759364925]
mKGQAgentは、自然言語の質問をSPARQLクエリに変換し、モジュール化された解釈可能なサブタスクに変換するタスクを分解する。
2025年のText2SPARQLチャレンジにおいて、DBpediaとCorporateベースのKGQAベンチマークに基づいて評価され、私たちのアプローチは、他の参加者の中で第一に行われました。
論文 参考訳(メタデータ) (2025-07-22T19:23:03Z) - MSA at SemEval-2025 Task 3: High Quality Weak Labeling and LLM Ensemble Verification for Multilingual Hallucination Detection [0.0]
本稿では,SemEval-2025 Task 3: Mu-SHROOM, The Multilingual Shared-task on Hallucinations and Related Observable Overgeneration misstakesについて述べる。
このタスクは、複数の言語にまたがる命令チューニングされた大規模言語モデル(LLM)によって生成されたテキスト中の幻覚的スパンを検出することを含む。
我々のシステムはアラビア語とバスク語で第1位、ドイツ語、スウェーデン語、フィンランド語で第2位、チェコ語、ファルシ語、フランス語で第3位にランクインした。
論文 参考訳(メタデータ) (2025-05-27T08:26:17Z) - GenAI Content Detection Task 1: English and Multilingual Machine-Generated Text Detection: AI vs. Human [71.42669028683741]
我々は,Coling 2025におけるGenAIワークショップの一環として,バイナリマシン生成テキスト検出における共有タスクを提案する。
このタスクは、モノリンガル(英: Monolingual)とマルチリンガル(英: Multilingual)の2つのサブタスクから構成される。
本稿では,データの包括的概要,結果の概要,参加システムの詳細な説明,提出内容の詳細な分析について述べる。
論文 参考訳(メタデータ) (2025-01-19T11:11:55Z) - From Multiple-Choice to Extractive QA: A Case Study for English and Arabic [51.13706104333848]
既存の多言語データセットを新しいNLPタスクに再利用する可能性について検討する。
本稿では,英語および現代標準アラビア語に対するアノテーションガイドラインと並列EQAデータセットを提案する。
我々は、残りの120のBELEBELE言語変種に対して、他の人が我々のアプローチを適用するのを助けることを目指しており、その多くがリソース不足と見なされている。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。