論文の概要: Bridging the Semantic Gaps: Improving Medical VQA Consistency with LLM-Augmented Question Sets
- arxiv url: http://arxiv.org/abs/2504.11777v1
- Date: Wed, 16 Apr 2025 05:31:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 18:06:34.178566
- Title: Bridging the Semantic Gaps: Improving Medical VQA Consistency with LLM-Augmented Question Sets
- Title(参考訳): セマンティックギャップのブリッジ:LCM拡張質問セットによる医用VQA整合性の改善
- Authors: Yongpei Ma, Pengyu Wang, Adam Dunn, Usman Naseem, Jinman Kim,
- Abstract要約: 医用視覚質問応答システム (MVQA) は, 自然言語クエリに応答して, 医用画像の解釈を行うことができる。
言語的な多様性は、しばしばこれらのシステムの一貫性を損なう。
本稿では,意味的に等価な質問文を生成するためのSemantically Equivalent Question Augmentation(SEQA)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.882628143461856
- License:
- Abstract: Medical Visual Question Answering (MVQA) systems can interpret medical images in response to natural language queries. However, linguistic variability in question phrasing often undermines the consistency of these systems. To address this challenge, we propose a Semantically Equivalent Question Augmentation (SEQA) framework, which leverages large language models (LLMs) to generate diverse yet semantically equivalent rephrasings of questions. Specifically, this approach enriches linguistic diversity while preserving semantic meaning. We further introduce an evaluation metric, Total Agreement Rate with Semantically Equivalent Input and Correct Answer (TAR-SC), which assesses a model's capability to generate consistent and correct responses to semantically equivalent linguistic variations. In addition, we also propose three other diversity metrics - average number of QA items per image (ANQI), average number of questions per image with the same answer (ANQA), and average number of open-ended questions per image with the same semantics (ANQS). Using the SEQA framework, we augmented the benchmarked MVQA public datasets of SLAKE, VQA-RAD, and PathVQA. As a result, all three datasets achieved significant improvements by incorporating more semantically equivalent questions: ANQI increased by an average of 86.1, ANQA by 85.1, and ANQS by 46. Subsequent experiments evaluate three MVQA models (M2I2, MUMC, and BiomedGPT) under both zero-shot and fine-tuning settings on the enhanced datasets. Experimental results in MVQA datasets show that fine-tuned models achieve an average accuracy improvement of 19.35%, while our proposed TAR-SC metric shows an average improvement of 11. 61%, indicating a substantial enhancement in model consistency.
- Abstract(参考訳): 医用視覚質問応答システム (MVQA) は, 自然言語クエリに応答して, 医用画像の解釈を行うことができる。
しかし、言語的な多様性は、しばしばこれらのシステムの一貫性を損なう。
この課題に対処するために,大規模言語モデル(LLM)を活用し,多種多様な意味論的に等価な質問文を生成するSemantically Equivalent Question Augmentation (SEQA)フレームワークを提案する。
特に、この手法は意味を保ちながら言語多様性を豊かにする。
さらに、意味論的に等価な言語変化に対する一貫性と正しい応答を生成するモデルの能力を評価するための評価指標であるTAR-SC(Total Agreement Rate with Semantically Equivalent Input and Correct Answer)を導入する。
さらに、画像ごとの平均QA項目数(ANQI)、同じ回答を持つ画像毎の平均質問数(ANQA)、同じ意味を持つ画像毎のオープンエンド質問数(ANQS)という3つの多様性指標も提案する。
SEQAフレームワークを使用して、SLAKE、VQA-RAD、PathVQAのベンチマークされたMVQAパブリックデータセットを拡張した。
その結果、3つのデータセットは、より意味論的に等価な質問を組み込むことで、大幅に改善された: ANQIは平均86.1、ANQAは85.1、ANQSは46。
その後の実験では、3つのMVQAモデル(M2I2、MUMC、BiomedGPT)を、拡張データセットのゼロショットと微調整の両方で評価した。
MVQAデータセットによる実験結果から、微調整モデルでは平均精度が19.35%向上し、提案したTAR-SC測定値では平均精度が11.5%向上した。
61%であり,モデル一貫性が著しく向上した。
関連論文リスト
- Word-Sequence Entropy: Towards Uncertainty Estimation in Free-Form Medical Question Answering Applications and Beyond [52.246494389096654]
本稿ではワードシーケンスエントロピー(WSE)を紹介し,単語レベルとシーケンスレベルの不確実性を校正する手法を提案する。
We compare WSE with six baseline method on five free-form medical QA datasets, using 7 popular large language model (LLMs)。
論文 参考訳(メタデータ) (2024-02-22T03:46:08Z) - Diversity Enhanced Narrative Question Generation for Storybooks [4.043005183192124]
マルチクエスト生成モデル(mQG)を導入し,複数の,多様な,回答可能な質問を生成する。
生成した質問の応答性を検証するために,SQuAD2.0の微調整された質問応答モデルを用いる。
mQGは、強力なベースラインの中で、様々な評価指標で有望な結果を示している。
論文 参考訳(メタデータ) (2023-10-25T08:10:04Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z) - Learning from Lexical Perturbations for Consistent Visual Question
Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。
本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。
VQA Perturbed Pairings (VQA P2) も提案する。
論文 参考訳(メタデータ) (2020-11-26T17:38:03Z) - IQ-VQA: Intelligent Visual Question Answering [3.09911862091928]
ルールベースデータセット上で,VQAモデルの一貫性を15%向上することを示す。
また,視覚と言語に対するマルチモーダル理解が向上するアテンションマップの改良を定量的に示す。
論文 参考訳(メタデータ) (2020-07-08T20:41:52Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。