論文の概要: Open-Ended Medical Visual Question Answering Through Prefix Tuning of
Language Models
- arxiv url: http://arxiv.org/abs/2303.05977v2
- Date: Fri, 21 Jul 2023 22:33:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 23:40:12.448130
- Title: Open-Ended Medical Visual Question Answering Through Prefix Tuning of
Language Models
- Title(参考訳): 言語モデルのプレフィックスチューニングによるオープンエンド医療視覚質問応答
- Authors: Tom van Sonsbeek, Mohammad Mahdi Derakhshani, Ivona Najdenkoska, Cees
G. M. Snoek and Marcel Worring
- Abstract要約: 我々は、VQAのオープン化に重点を置いており、近年の言語モデルの発展によって、VQAを生成タスクと見なされている。
医療画像を言語モデルに適切に伝達するために,抽出した視覚的特徴を学習可能なトークンの集合にマッピングするネットワークを開発する。
我々は、Slake、OVQA、PathVQAといった主要な医療用VQAベンチマークに対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 42.360431316298204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical Visual Question Answering (VQA) is an important challenge, as it
would lead to faster and more accurate diagnoses and treatment decisions. Most
existing methods approach it as a multi-class classification problem, which
restricts the outcome to a predefined closed-set of curated answers. We focus
on open-ended VQA and motivated by the recent advances in language models
consider it as a generative task. Leveraging pre-trained language models, we
introduce a novel method particularly suited for small, domain-specific,
medical datasets. To properly communicate the medical images to the language
model, we develop a network that maps the extracted visual features to a set of
learnable tokens. Then, alongside the question, these learnable tokens directly
prompt the language model. We explore recent parameter-efficient fine-tuning
strategies for language models, which allow for resource- and data-efficient
fine-tuning. We evaluate our approach on the prime medical VQA benchmarks,
namely, Slake, OVQA and PathVQA. The results demonstrate that our approach
outperforms existing methods across various training settings while also being
computationally efficient.
- Abstract(参考訳): VQA(Medicical Visual Question Answering)は、より迅速かつ正確な診断と治療の決定につながるため、重要な課題である。
既存のほとんどの手法では、結果を事前に定義されたクローズドな回答に制限するマルチクラス分類問題としてアプローチしている。
我々は,VQAのオープン化に重点を置いており,近年の言語モデルの発展に動機付けられている。
事前学習された言語モデルを活用して,小型でドメイン固有な医療データセットに適した新しい手法を提案する。
医療画像を言語モデルに適切に伝達するために,抽出した視覚的特徴を学習可能なトークンの集合にマッピングするネットワークを開発する。
そして、これらの学習可能なトークンが言語モデルを直接刺激する。
本稿では,近年のパラメータ効率の高い言語モデルの微調整戦略について考察する。
我々は、Slake、OVQA、PathVQAといった主要な医療用VQAベンチマークに対するアプローチを評価した。
その結果,本手法は様々な学習環境における既存手法よりも優れ,計算効率も優れていた。
関連論文リスト
- LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Towards Efficient Methods in Medical Question Answering using Knowledge Graph Embeddings [3.944219308229571]
自然言語処理(NLP)では、機械読解(MRC)は与えられた文脈に基づいて質問に答えるタスクである。
BioBERT、SciBERT、さらにはChatGPTといった現代の言語モデルは、膨大な量のドメイン内医療コーパスで訓練されている。
本稿では、そのようなドメイン固有の事前学習に頼ることなく、モデルにドメイン知識を注入するためのリソース効率のよいアプローチを提案する。
論文 参考訳(メタデータ) (2024-01-15T21:43:46Z) - MISS: A Generative Pretraining and Finetuning Approach for Med-VQA [16.978523518972533]
本稿では,医療用VQAタスクのためのMultI-task Self-Supervised Learning based framework (MISS)を提案する。
我々は,テキストエンコーダとマルチモーダルエンコーダを統一し,マルチタスク学習を通じて画像テキスト機能を調整する。
提案手法は,より少ないマルチモーダルデータセットで優れた結果を得るとともに,生成VQAモデルの利点を実証する。
論文 参考訳(メタデータ) (2024-01-10T13:56:40Z) - Visual Question Answering in the Medical Domain [13.673890873313354]
本稿では,Med-VQAタスクのための小さなデータセットの問題を軽減するために,新しいコントラスト学習事前学習手法を提案する。
提案モデルでは,VQA-Med 2019テストセットで60%の精度を達成し,他の最先端のMed-VQAモデルに匹敵する結果を得た。
論文 参考訳(メタデータ) (2023-09-20T06:06:10Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss [73.65872901950135]
本研究は,特徴空間学習の観点から,言語先行問題に挑戦する試みである。
適応したマージンコサイン損失は、頻繁でスパースな回答特徴空間を区別するように設計されている。
実験の結果, 適応したマージンコサイン損失はベースラインモデルを大きく向上できることがわかった。
論文 参考訳(メタデータ) (2021-05-05T11:41:38Z) - MMBERT: Multimodal BERT Pretraining for Improved Medical VQA [23.78515287446131]
NLP,ビジョン,言語タスクのためのトランスフォーマースタイルアーキテクチャの自己教師型事前学習に着想を得たソリューションを提案する。
Masked Language Modeling を用いて、よりリッチな医療画像とテキスト意味表現を学習する手法です。
このソリューションは、放射線画像用の2つのVQAデータセットで最新のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-03T13:01:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。