論文の概要: TM-PATHVQA:90000+ Textless Multilingual Questions for Medical Visual Question Answering
- arxiv url: http://arxiv.org/abs/2407.11383v1
- Date: Tue, 16 Jul 2024 04:54:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 18:22:47.540558
- Title: TM-PATHVQA:90000+ Textless Multilingual Questions for Medical Visual Question Answering
- Title(参考訳): TM-PATHVQA:90000以上のテキストレス多言語質問
- Authors: Tonmoy Rajkhowa, Amartya Roy Chowdhury, Sankalp Nagaonkar, Achyut Mani Tripathi,
- Abstract要約: 本研究は,テキストレス多言語病理VQAデータセットを導入することで,音声ベースのVQAシステムを実現する。
このデータセットは5,004の病理画像と70時間の音声に基づいて、98,397の多言語音声質問と回答からなる。
- 参考スコア(独自算出の注目度): 1.3124513975412255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In healthcare and medical diagnostics, Visual Question Answering (VQA) mayemergeasapivotal tool in scenarios where analysis of intricate medical images becomes critical for accurate diagnoses. Current text-based VQA systems limit their utility in scenarios where hands-free interaction and accessibility are crucial while performing tasks. A speech-based VQA system may provide a better means of interaction where information can be accessed while performing tasks simultaneously. To this end, this work implements a speech-based VQA system by introducing a Textless Multilingual Pathological VQA (TMPathVQA) dataset, an expansion of the PathVQA dataset, containing spoken questions in English, German & French. This dataset comprises 98,397 multilingual spoken questions and answers based on 5,004 pathological images along with 70 hours of audio. Finally, this work benchmarks and compares TMPathVQA systems implemented using various combinations of acoustic and visual features.
- Abstract(参考訳): 医療や医療の分野では、複雑な医療画像の分析が正確な診断に重要になるシナリオにおいて、視覚的質問回答(VQA)が有用である。
現行のテキストベースのVQAシステムは、タスク実行中にハンズフリーのインタラクションとアクセシビリティが不可欠であるシナリオにおいて、その実用性を制限している。
音声ベースのVQAシステムは、タスクを同時に実行しながら情報にアクセス可能な、よりよい対話手段を提供することができる。
この目的のために、この研究は、英語、ドイツ語、フランス語の音声質問を含むPathVQAデータセットの拡張であるTextless Multilingual Pathological VQA(TMPathVQA)データセットを導入して、音声ベースのVQAシステムを実装した。
このデータセットは5,004の病理画像と70時間の音声に基づいて、98,397の多言語音声質問と回答からなる。
最後に、様々な音響的特徴と視覚的特徴の組み合わせを用いて実装されたTMPathVQAシステムをベンチマークし比較する。
関連論文リスト
- Visual question answering: from early developments to recent advances -- a survey [11.729464930866483]
VQA(Visual Question Answering)は、機械が視覚コンテンツに関する質問に答えることを目的とした、進化した研究分野である。
VQAは、インタラクティブな教育ツール、医療画像診断、カスタマーサービス、エンターテイメント、ソーシャルメディアキャプションなど、幅広い用途で注目されている。
論文 参考訳(メタデータ) (2025-01-07T17:00:35Z) - MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering [58.92057773071854]
MTVQAは、9つの異なる言語にまたがる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
MTVQAは9つの異なる言語にわたる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
論文 参考訳(メタデータ) (2024-05-20T12:35:01Z) - CommVQA: Situating Visual Question Answering in Communicative Contexts [16.180130883242672]
画像、画像記述、実世界のコミュニケーションシナリオからなるデータセットであるCommVQAを紹介する。
CommVQAの解決には文脈情報へのアクセスが不可欠であることを示す。
論文 参考訳(メタデータ) (2024-02-22T22:31:39Z) - Language Guided Visual Question Answering: Elevate Your Multimodal
Language Model Using Knowledge-Enriched Prompts [54.072432123447854]
視覚的質問応答(VQA)は、画像に関する質問に答えるタスクである。
疑問に答えるには、常識知識、世界知識、イメージに存在しないアイデアや概念についての推論が必要である。
本稿では,論理文や画像キャプション,シーングラフなどの形式で言語指導(LG)を用いて,より正確に質問に答えるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:54:11Z) - Making the V in Text-VQA Matter [1.2962828085662563]
テキストベースのVQAは,画像中のテキストを読み取って質問に答えることを目的としている。
近年の研究では、データセットの問合せ対は、画像に存在するテキストにより焦点を絞っていることが示されている。
このデータセットでトレーニングされたモデルは、視覚的コンテキストの理解の欠如による偏りのある回答を予測する。
論文 参考訳(メタデータ) (2023-08-01T05:28:13Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。
我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。
A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-03-26T13:03:42Z) - Medical Visual Question Answering: A Survey [55.53205317089564]
VQA(Medicical Visual Question Answering)は、医療用人工知能と一般的なVQA課題の組み合わせである。
医療用VQAシステムは,医療用画像と自然言語による臨床的に関連性のある質問を前提として,妥当かつ説得力のある回答を予測することが期待されている。
論文 参考訳(メタデータ) (2021-11-19T05:55:15Z) - QAConv: Question Answering on Informative Conversations [85.2923607672282]
ビジネスメールやパネルディスカッション,作業チャネルなど,情報的な会話に重点を置いています。
合計で、スパンベース、フリーフォーム、および回答不能な質問を含む34,204のQAペアを収集します。
論文 参考訳(メタデータ) (2021-05-14T15:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。