論文の概要: Visual Question Answering (VQA) on Images with Superimposed Text
- arxiv url: http://arxiv.org/abs/2307.02489v1
- Date: Tue, 13 Jun 2023 19:17:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-09 13:42:34.413646
- Title: Visual Question Answering (VQA) on Images with Superimposed Text
- Title(参考訳): 重畳テキストを用いた画像の視覚的質問応答(VQA)
- Authors: Venkat Kodali and Daniel Berleant
- Abstract要約: 医用画像へのテキストの重ね合わせがVQAに与える影響を調査した。
以上の結果から,VQA性能の重要な指標を著しく劣化させることなく,テキストメタ情報を追加できることが判明した。
我々の発見は、AI技術を用いてVQAタスクを受けた医療画像であっても、画像にテキストを重畳するプラクティスを検証することが重要である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Superimposed text annotations have been under-investigated, yet are
ubiquitous, useful and important, especially in medical images. Medical images
also highlight the challenges posed by low resolution, noise and superimposed
textual meta-information. Therefor we probed the impact of superimposing text
onto medical images on VQA. Our results revealed that this textual
meta-information can be added without severely degrading key measures of VQA
performance. Our findings are significant because they validate the practice of
superimposing text on images, even for medical images subjected to the VQA task
using AI techniques. The work helps advance understanding of VQA in general
and, in particular, in the domain of healthcare and medicine.
- Abstract(参考訳): 重ね合わせのテキストアノテーションは未定だが、ユビキタスであり、有用であり、特に医療画像において重要である。
医療画像はまた、低解像度、ノイズ、重畳されたテキストメタ情報による課題も強調している。
そこで我々は,VQA上の医療画像へのテキストの重ね合わせの影響を調査した。
以上の結果から,VQA性能の重要な指標を著しく劣化させることなく,テキストメタ情報を追加できることが判明した。
我々の発見は、AI技術を用いてVQAタスクを受けた医療画像であっても、画像にテキストを重畳するプラクティスを検証することが重要である。
この研究は、VQA全般、特に医療と医療の分野での理解を深めるのに役立ちます。
関連論文リスト
- PitVQA: Image-grounded Text Embedding LLM for Visual Question Answering in Pituitary Surgery [16.341966752582096]
本稿では, 内鼻下垂体手術における視覚質問応答(VQA)のためのデータセットであるPitVQAと, 手術用VQAのための新しい画像基底テキスト埋め込みによるGPT2の適応であるPitVQA-Netを紹介する。
PitVQAは25のプロシージャビデオと、フェーズとステップ認識、コンテキスト理解、ツール検出とローカライゼーション、ツールとタスクの相互作用といった重要な外科的側面にまたがる質問対の豊富なコレクションで構成されている。
PitVQA-Netは、画像とテキストの特徴を共有埋め込み空間とGPT2に投影する新しい画像基底テキスト埋め込みで構成されている。
論文 参考訳(メタデータ) (2024-05-22T19:30:24Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - Medical visual question answering using joint self-supervised learning [8.817054025763325]
エンコーダは、自己アテンション機構で画像-テキスト二重モードに埋め込まれる。
デコーダはエンコーダの上部に接続され、小型の医療用VQAデータセットを使用して微調整される。
論文 参考訳(メタデータ) (2023-02-25T12:12:22Z) - Interpretable Medical Image Visual Question Answering via Multi-Modal
Relationship Graph Learning [45.746882253686856]
医用視覚質問応答 (VQA) は、入力医療画像に関する臨床的に関係のある質問に答えることを目的としている。
まず,胸部X線画像を中心に,包括的で大規模な医療用VQAデータセットを収集した。
このデータセットに基づいて、3つの異なる関係グラフを構築することによって,新たなベースライン手法を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:46:16Z) - PromptCap: Prompt-Guided Task-Aware Image Captioning [118.39243917422492]
本稿では,画像とブラックボックスLMのより良いコネクタとして設計されたキャプションモデルであるPromptCapを提案する。
PromptCapは、生成されたキャプションで記述する視覚エンティティを制御するために自然言語プロンプトを使用する。
本稿では,GPT-3に画像キャプションを付加してVQAを実行する既存のパイプライン上で,PromptCapの有効性を示す。
論文 参考訳(メタデータ) (2022-11-15T19:07:53Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - Medical Visual Question Answering: A Survey [55.53205317089564]
VQA(Medicical Visual Question Answering)は、医療用人工知能と一般的なVQA課題の組み合わせである。
医療用VQAシステムは,医療用画像と自然言語による臨床的に関連性のある質問を前提として,妥当かつ説得力のある回答を予測することが期待されている。
論文 参考訳(メタデータ) (2021-11-19T05:55:15Z) - MuVAM: A Multi-View Attention-based Model for Medical Visual Question
Answering [2.413694065650786]
本稿では,医療用視覚質問応答のためのマルチビューアテンションベースモデル(MuVAM)を提案する。
医用画像の高レベルの意味をテキスト記述に基づいて統合する。
2つのデータセットの実験では、MuVAMの有効性が最先端の手法を超えていることが示されている。
論文 参考訳(メタデータ) (2021-07-07T13:40:25Z) - MMBERT: Multimodal BERT Pretraining for Improved Medical VQA [23.78515287446131]
NLP,ビジョン,言語タスクのためのトランスフォーマースタイルアーキテクチャの自己教師型事前学習に着想を得たソリューションを提案する。
Masked Language Modeling を用いて、よりリッチな医療画像とテキスト意味表現を学習する手法です。
このソリューションは、放射線画像用の2つのVQAデータセットで最新のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-03T13:01:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。