論文の概要: Open-Ended Medical Visual Question Answering Through Prefix Tuning of
Language Models
- arxiv url: http://arxiv.org/abs/2303.05977v1
- Date: Fri, 10 Mar 2023 15:17:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 14:45:25.312370
- Title: Open-Ended Medical Visual Question Answering Through Prefix Tuning of
Language Models
- Title(参考訳): 言語モデルのプレフィックスチューニングによるオープンエンド医療視覚質問応答
- Authors: Tom van Sonsbeek, Mohammad Mahdi Derakhshani, Ivona Najdenkoska, Cees
G. M. Snoek and Marcel Worring
- Abstract要約: 我々は、VQAのオープン化に重点を置いており、近年の言語モデルの発展によって、VQAを生成タスクと見なされている。
医療画像を言語モデルに適切に伝達するために,抽出した視覚的特徴を学習可能なトークンの集合にマッピングするネットワークを開発する。
我々は、Slake、OVQA、PathVQAといった主要な医療用VQAベンチマークに対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 42.360431316298204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical Visual Question Answering (VQA) is an important challenge, as it
would lead to faster and more accurate diagnoses and treatment decisions. Most
existing methods approach it as a multi-class classification problem, which
restricts the outcome to a predefined closed-set of curated answers. We focus
on open-ended VQA and motivated by the recent advances in language models
consider it as a generative task. Leveraging pre-trained language models, we
introduce a novel method particularly suited for small, domain-specific,
medical datasets. To properly communicate the medical images to the language
model, we develop a network that maps the extracted visual features to a set of
learnable tokens. Then, alongside the question, these learnable tokens directly
prompt the language model. We explore recent parameter-efficient fine-tuning
strategies for language models, which allow for resource- and data-efficient
fine-tuning. We evaluate our approach on the prime medical VQA benchmarks,
namely, Slake, OVQA and PathVQA. The results demonstrate that our approach
outperforms existing methods across various training settings while also being
computationally efficient.
- Abstract(参考訳): VQA(Medicical Visual Question Answering)は、より迅速かつ正確な診断と治療の決定につながるため、重要な課題である。
既存のほとんどの手法では、結果を事前に定義されたクローズドな回答に制限するマルチクラス分類問題としてアプローチしている。
我々は,VQAのオープン化に重点を置いており,近年の言語モデルの発展に動機付けられている。
事前学習された言語モデルを活用して,小型でドメイン固有な医療データセットに適した新しい手法を提案する。
医療画像を言語モデルに適切に伝達するために,抽出した視覚的特徴を学習可能なトークンの集合にマッピングするネットワークを開発する。
そして、これらの学習可能なトークンが言語モデルを直接刺激する。
本稿では,近年のパラメータ効率の高い言語モデルの微調整戦略について考察する。
我々は、Slake、OVQA、PathVQAといった主要な医療用VQAベンチマークに対するアプローチを評価した。
その結果,本手法は様々な学習環境における既存手法よりも優れ,計算効率も優れていた。
関連論文リスト
- MISS: A Generative Pretraining and Finetuning Approach for Med-VQA [18.21534026415084]
本稿では,医療用VQAタスクのためのMultI-task Self-Supervised Learning based framework (MISS)を提案する。
我々は,テキストエンコーダとマルチモーダルエンコーダを統一し,マルチタスク学習を通じて画像テキスト機能を調整する。
提案手法は,より少ないマルチモーダルデータセットで優れた結果を得るとともに,生成VQAモデルの利点を実証する。
論文 参考訳(メタデータ) (2024-01-10T13:56:40Z) - Enhancing Medical Specialty Assignment to Patients using NLP Techniques [0.0]
本稿では,計算効率を向上しつつ,優れた性能を実現する方法を提案する。
具体的には、キーワードを用いて、大規模なテキストコーパスで事前訓練された言語モデルより優れたディープラーニングアーキテクチャを訓練する。
その結果,テキスト分類におけるキーワードの利用により,分類性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2023-12-09T14:13:45Z) - Visual Question Answering in the Medical Domain [13.673890873313354]
本稿では,Med-VQAタスクのための小さなデータセットの問題を軽減するために,新しいコントラスト学習事前学習手法を提案する。
提案モデルでは,VQA-Med 2019テストセットで60%の精度を達成し,他の最先端のMed-VQAモデルに匹敵する結果を得た。
論文 参考訳(メタデータ) (2023-09-20T06:06:10Z) - Med-Flamingo: a Multimodal Medical Few-shot Learner [58.85676013818811]
医療領域に適応したマルチモーダル・数ショット学習者であるMed-Flamingoを提案する。
OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。
本研究は,医療用VQA(ジェネレーティブ医療用VQA)の最初の人間評価である。
論文 参考訳(メタデータ) (2023-07-27T20:36:02Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss [73.65872901950135]
本研究は,特徴空間学習の観点から,言語先行問題に挑戦する試みである。
適応したマージンコサイン損失は、頻繁でスパースな回答特徴空間を区別するように設計されている。
実験の結果, 適応したマージンコサイン損失はベースラインモデルを大きく向上できることがわかった。
論文 参考訳(メタデータ) (2021-05-05T11:41:38Z) - MMBERT: Multimodal BERT Pretraining for Improved Medical VQA [23.78515287446131]
NLP,ビジョン,言語タスクのためのトランスフォーマースタイルアーキテクチャの自己教師型事前学習に着想を得たソリューションを提案する。
Masked Language Modeling を用いて、よりリッチな医療画像とテキスト意味表現を学習する手法です。
このソリューションは、放射線画像用の2つのVQAデータセットで最新のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-03T13:01:19Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。