論文の概要: A Dataset for Medical Instructional Video Classification and Question
Answering
- arxiv url: http://arxiv.org/abs/2201.12888v1
- Date: Sun, 30 Jan 2022 18:06:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 03:45:07.809841
- Title: A Dataset for Medical Instructional Video Classification and Question
Answering
- Title(参考訳): 医学的ビデオ分類と質問応答のためのデータセット
- Authors: Deepak Gupta, Kush Attal, and Dina Demner-Fushman
- Abstract要約: 本稿では,医療ビデオの理解を支援するシステム設計に向けた新たな課題とデータセットについて紹介する。
医療ビデオは多くの救急、救急、医療教育に関する質問に対して、可能な限りの回答を提供するだろうと信じています。
我々は,MedVidCLとMedVidQAデータセットを用いて各タスクをベンチマークし,マルチモーダル学習手法を提案する。
- 参考スコア(独自算出の注目度): 16.748852458926162
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper introduces a new challenge and datasets to foster research toward
designing systems that can understand medical videos and provide visual answers
to natural language questions. We believe medical videos may provide the best
possible answers to many first aids, medical emergency, and medical education
questions. Toward this, we created the MedVidCL and MedVidQA datasets and
introduce the tasks of Medical Video Classification (MVC) and Medical Visual
Answer Localization (MVAL), two tasks that focus on cross-modal (medical
language and medical video) understanding. The proposed tasks and datasets have
the potential to support the development of sophisticated downstream
applications that can benefit the public and medical practitioners. Our
datasets consist of 6,117 annotated videos for the MVC task and 3,010 annotated
questions and answers timestamps from 899 videos for the MVAL task. These
datasets have been verified and corrected by medical informatics experts. We
have also benchmarked each task with the created MedVidCL and MedVidQA datasets
and proposed the multimodal learning methods that set competitive baselines for
future research.
- Abstract(参考訳): 本稿では,医療ビデオの理解と自然言語質問に対する視覚的回答を提供するシステム設計に向けた新たな課題とデータセットを提案する。
医療ビデオは、多くの救急医療や救急医療、医療教育の質問に対して、最善の答えを提供すると信じている。
そこで我々は,MedVidCLとMedVidQAデータセットを作成し,医用ビデオ分類(MVC)と医用ビジュアルアンサーローカライゼーション(MVAL)の2つのタスクを紹介した。
提案されたタスクとデータセットは、公共および医療従事者に利益をもたらす洗練された下流アプリケーションの開発を支援する可能性がある。
私たちのデータセットは、MVALタスクの6,117のアノテーション付きビデオと3,010のアノテーション付き質問と、MVALタスクの899のビデオのタイムスタンプで構成されています。
これらのデータセットは医療情報学の専門家によって検証され、修正されている。
また,MedVidCLとMedVidQAデータセットを用いて各タスクをベンチマークし,今後の研究の基盤となるマルチモーダル学習手法を提案する。
関連論文リスト
- Vision-Language Models for Medical Report Generation and Visual Question
Answering: A Review [0.0]
医療ビジョン言語モデル(VLM)は、コンピュータビジョンと自然言語処理を組み合わせて医療データを分析する。
本稿では,医療報告生成と視覚的質問応答のためのモデル開発における最近の進歩についてレビューする。
論文 参考訳(メタデータ) (2024-03-04T20:29:51Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for
Medical LVLM [50.58232769384052]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z) - MedSumm: A Multimodal Approach to Summarizing Code-Mixed Hindi-English
Clinical Queries [16.101969130235055]
本稿では,Multimodal Medical Codemixed Question Summarization MMCQSデータセットを紹介する。
このデータセットは、ヒンディー語と英語の混成医療クエリと視覚支援を組み合わせたものだ。
データセット、コード、トレーニング済みのモデルを公開します。
論文 参考訳(メタデータ) (2024-01-03T07:58:25Z) - Towards Answering Health-related Questions from Medical Videos: Datasets
and Approaches [21.16331827504689]
多くの個人が、特定のタスクを達成するための一連のステップバイステップの手順を提供するため、指導ビデオを好むようになった。
医療領域からの指導ビデオは、第一支援、救急、および医療教育に関する質問に対する最良の視覚的回答を提供することができる。
医療分野における大規模なデータセットの不足は、公衆の健康に関する質問に役立てるアプリケーションの開発を妨げる重要な課題である。
論文 参考訳(メタデータ) (2023-09-21T16:21:28Z) - Med-Flamingo: a Multimodal Medical Few-shot Learner [58.85676013818811]
医療領域に適応したマルチモーダル・数ショット学習者であるMed-Flamingoを提案する。
OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。
本研究は,医療用VQA(ジェネレーティブ医療用VQA)の最初の人間評価である。
論文 参考訳(メタデータ) (2023-07-27T20:36:02Z) - LLaVA-Med: Training a Large Language-and-Vision Assistant for
Biomedicine in One Day [85.19963303642427]
本稿では,バイオメディカルイメージのオープンな研究課題に答えられる視覚言語対話アシスタントを訓練するための費用効率のよいアプローチを提案する。
モデルはまず、フィギュア・キャプションのペアを使ってバイオメディカル・ボキャブラリをアライメントし、その後、オープンエンドの会話意味論を習得する。
これにより、バイオメディジンのための大規模言語と視覚アシスタントを15時間以内で(8つのA100で)訓練することができる。
論文 参考訳(メタデータ) (2023-06-01T16:50:07Z) - ViMQ: A Vietnamese Medical Question Dataset for Healthcare Dialogue
System Development [1.4315915057750197]
ベトナムでは,文レベルおよびエンティティレベルのアノテーションを持つ患者からの医療質問のデータセットを公開している。
本研究では,スパンノイズモデルを用いた簡易な自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2023-04-27T17:59:53Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - Medical Visual Question Answering: A Survey [55.53205317089564]
VQA(Medicical Visual Question Answering)は、医療用人工知能と一般的なVQA課題の組み合わせである。
医療用VQAシステムは,医療用画像と自然言語による臨床的に関連性のある質問を前提として,妥当かつ説得力のある回答を予測することが期待されている。
論文 参考訳(メタデータ) (2021-11-19T05:55:15Z) - SLAKE: A Semantically-Labeled Knowledge-Enhanced Dataset for Medical
Visual Question Answering [29.496389523654596]
経験者によって注釈付けされた包括的セマンティックラベルを用いた大規模なバイリンガルデータセットSLAKEを提示する。
さらに、SLAKEはよりリッチなモダリティを含み、現在利用可能なデータセットよりも多くの人体部分をカバーする。
論文 参考訳(メタデータ) (2021-02-18T18:44:50Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。