論文の概要: A Dataset for Medical Instructional Video Classification and Question
Answering
- arxiv url: http://arxiv.org/abs/2201.12888v1
- Date: Sun, 30 Jan 2022 18:06:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 03:45:07.809841
- Title: A Dataset for Medical Instructional Video Classification and Question
Answering
- Title(参考訳): 医学的ビデオ分類と質問応答のためのデータセット
- Authors: Deepak Gupta, Kush Attal, and Dina Demner-Fushman
- Abstract要約: 本稿では,医療ビデオの理解を支援するシステム設計に向けた新たな課題とデータセットについて紹介する。
医療ビデオは多くの救急、救急、医療教育に関する質問に対して、可能な限りの回答を提供するだろうと信じています。
我々は,MedVidCLとMedVidQAデータセットを用いて各タスクをベンチマークし,マルチモーダル学習手法を提案する。
- 参考スコア(独自算出の注目度): 16.748852458926162
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper introduces a new challenge and datasets to foster research toward
designing systems that can understand medical videos and provide visual answers
to natural language questions. We believe medical videos may provide the best
possible answers to many first aids, medical emergency, and medical education
questions. Toward this, we created the MedVidCL and MedVidQA datasets and
introduce the tasks of Medical Video Classification (MVC) and Medical Visual
Answer Localization (MVAL), two tasks that focus on cross-modal (medical
language and medical video) understanding. The proposed tasks and datasets have
the potential to support the development of sophisticated downstream
applications that can benefit the public and medical practitioners. Our
datasets consist of 6,117 annotated videos for the MVC task and 3,010 annotated
questions and answers timestamps from 899 videos for the MVAL task. These
datasets have been verified and corrected by medical informatics experts. We
have also benchmarked each task with the created MedVidCL and MedVidQA datasets
and proposed the multimodal learning methods that set competitive baselines for
future research.
- Abstract(参考訳): 本稿では,医療ビデオの理解と自然言語質問に対する視覚的回答を提供するシステム設計に向けた新たな課題とデータセットを提案する。
医療ビデオは、多くの救急医療や救急医療、医療教育の質問に対して、最善の答えを提供すると信じている。
そこで我々は,MedVidCLとMedVidQAデータセットを作成し,医用ビデオ分類(MVC)と医用ビジュアルアンサーローカライゼーション(MVAL)の2つのタスクを紹介した。
提案されたタスクとデータセットは、公共および医療従事者に利益をもたらす洗練された下流アプリケーションの開発を支援する可能性がある。
私たちのデータセットは、MVALタスクの6,117のアノテーション付きビデオと3,010のアノテーション付き質問と、MVALタスクの899のビデオのタイムスタンプで構成されています。
これらのデータセットは医療情報学の専門家によって検証され、修正されている。
また,MedVidCLとMedVidQAデータセットを用いて各タスクをベンチマークし,今後の研究の基盤となるマルチモーダル学習手法を提案する。
関連論文リスト
- A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - FEDMEKI: A Benchmark for Scaling Medical Foundation Models via Federated Knowledge Injection [83.54960238236548]
FEDMEKIはデータのプライバシーを守るだけでなく、医療基盤モデルの能力を高める。
FEDMEKIは、医療ファンデーションモデルに対して、直接データを公開することなく、幅広い医療知識から学ぶことを可能にする。
論文 参考訳(メタデータ) (2024-08-17T15:18:56Z) - MedSumm: A Multimodal Approach to Summarizing Code-Mixed Hindi-English
Clinical Queries [16.101969130235055]
本稿では,Multimodal Medical Codemixed Question Summarization MMCQSデータセットを紹介する。
このデータセットは、ヒンディー語と英語の混成医療クエリと視覚支援を組み合わせたものだ。
データセット、コード、トレーニング済みのモデルを公開します。
論文 参考訳(メタデータ) (2024-01-03T07:58:25Z) - Towards Answering Health-related Questions from Medical Videos: Datasets
and Approaches [21.16331827504689]
多くの個人が、特定のタスクを達成するための一連のステップバイステップの手順を提供するため、指導ビデオを好むようになった。
医療領域からの指導ビデオは、第一支援、救急、および医療教育に関する質問に対する最良の視覚的回答を提供することができる。
医療分野における大規模なデータセットの不足は、公衆の健康に関する質問に役立てるアプリケーションの開発を妨げる重要な課題である。
論文 参考訳(メタデータ) (2023-09-21T16:21:28Z) - Med-Flamingo: a Multimodal Medical Few-shot Learner [58.85676013818811]
医療領域に適応したマルチモーダル・数ショット学習者であるMed-Flamingoを提案する。
OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。
本研究は,医療用VQA(ジェネレーティブ医療用VQA)の最初の人間評価である。
論文 参考訳(メタデータ) (2023-07-27T20:36:02Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - ViMQ: A Vietnamese Medical Question Dataset for Healthcare Dialogue
System Development [1.4315915057750197]
ベトナムでは,文レベルおよびエンティティレベルのアノテーションを持つ患者からの医療質問のデータセットを公開している。
本研究では,スパンノイズモデルを用いた簡易な自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2023-04-27T17:59:53Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - Medical Visual Question Answering: A Survey [55.53205317089564]
VQA(Medicical Visual Question Answering)は、医療用人工知能と一般的なVQA課題の組み合わせである。
医療用VQAシステムは,医療用画像と自然言語による臨床的に関連性のある質問を前提として,妥当かつ説得力のある回答を予測することが期待されている。
論文 参考訳(メタデータ) (2021-11-19T05:55:15Z) - SLAKE: A Semantically-Labeled Knowledge-Enhanced Dataset for Medical
Visual Question Answering [29.496389523654596]
経験者によって注釈付けされた包括的セマンティックラベルを用いた大規模なバイリンガルデータセットSLAKEを提示する。
さらに、SLAKEはよりリッチなモダリティを含み、現在利用可能なデータセットよりも多くの人体部分をカバーする。
論文 参考訳(メタデータ) (2021-02-18T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。