Fugu-MT 論文翻訳(概要): A Dataset for Medical Instructional Video Classification and Question Answering

論文の概要: A Dataset for Medical Instructional Video Classification and Question Answering

arxiv url: http://arxiv.org/abs/2201.12888v1
Date: Sun, 30 Jan 2022 18:06:31 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-02 03:45:07.809841
Title: A Dataset for Medical Instructional Video Classification and Question Answering
Title（参考訳）: 医学的ビデオ分類と質問応答のためのデータセット
Authors: Deepak Gupta, Kush Attal, and Dina Demner-Fushman
Abstract要約: 本稿では,医療ビデオの理解を支援するシステム設計に向けた新たな課題とデータセットについて紹介する。医療ビデオは多くの救急、救急、医療教育に関する質問に対して、可能な限りの回答を提供するだろうと信じています。我々は,MedVidCLとMedVidQAデータセットを用いて各タスクをベンチマークし,マルチモーダル学習手法を提案する。
参考スコア（独自算出の注目度）: 16.748852458926162
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This paper introduces a new challenge and datasets to foster research toward designing systems that can understand medical videos and provide visual answers to natural language questions. We believe medical videos may provide the best possible answers to many first aids, medical emergency, and medical education questions. Toward this, we created the MedVidCL and MedVidQA datasets and introduce the tasks of Medical Video Classification (MVC) and Medical Visual Answer Localization (MVAL), two tasks that focus on cross-modal (medical language and medical video) understanding. The proposed tasks and datasets have the potential to support the development of sophisticated downstream applications that can benefit the public and medical practitioners. Our datasets consist of 6,117 annotated videos for the MVC task and 3,010 annotated questions and answers timestamps from 899 videos for the MVAL task. These datasets have been verified and corrected by medical informatics experts. We have also benchmarked each task with the created MedVidCL and MedVidQA datasets and proposed the multimodal learning methods that set competitive baselines for future research.
Abstract（参考訳）: 本稿では,医療ビデオの理解と自然言語質問に対する視覚的回答を提供するシステム設計に向けた新たな課題とデータセットを提案する。医療ビデオは、多くの救急医療や救急医療、医療教育の質問に対して、最善の答えを提供すると信じている。そこで我々は,MedVidCLとMedVidQAデータセットを作成し,医用ビデオ分類(MVC)と医用ビジュアルアンサーローカライゼーション(MVAL)の2つのタスクを紹介した。提案されたタスクとデータセットは、公共および医療従事者に利益をもたらす洗練された下流アプリケーションの開発を支援する可能性がある。私たちのデータセットは、MVALタスクの6,117のアノテーション付きビデオと3,010のアノテーション付き質問と、MVALタスクの899のビデオのタイムスタンプで構成されています。これらのデータセットは医療情報学の専門家によって検証され、修正されている。また,MedVidCLとMedVidQAデータセットを用いて各タスクをベンチマークし,今後の研究の基盤となるマルチモーダル学習手法を提案する。

関連論文リスト

Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。次に医学専門のMLLMであるLingshuを紹介します。 Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文参考訳（メタデータ） (2025-06-08T08:47:30Z)
A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。本稿では,MVLMの概要と適用した各種医療課題について概観する。また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文参考訳（メタデータ） (2024-11-19T03:27:05Z)
FEDMEKI: A Benchmark for Scaling Medical Foundation Models via Federated Knowledge Injection [83.54960238236548]
FEDMEKIはデータのプライバシーを守るだけでなく、医療基盤モデルの能力を高める。 FEDMEKIは、医療ファンデーションモデルに対して、直接データを公開することなく、幅広い医療知識から学ぶことを可能にする。
論文参考訳（メタデータ） (2024-08-17T15:18:56Z)
MedSumm: A Multimodal Approach to Summarizing Code-Mixed Hindi-English Clinical Queries [16.101969130235055]
本稿では,Multimodal Medical Codemixed Question Summarization MMCQSデータセットを紹介する。このデータセットは、ヒンディー語と英語の混成医療クエリと視覚支援を組み合わせたものだ。データセット、コード、トレーニング済みのモデルを公開します。
論文参考訳（メタデータ） (2024-01-03T07:58:25Z)
Towards Answering Health-related Questions from Medical Videos: Datasets and Approaches [21.16331827504689]
多くの個人が、特定のタスクを達成するための一連のステップバイステップの手順を提供するため、指導ビデオを好むようになった。医療領域からの指導ビデオは、第一支援、救急、および医療教育に関する質問に対する最良の視覚的回答を提供することができる。医療分野における大規模なデータセットの不足は、公衆の健康に関する質問に役立てるアプリケーションの開発を妨げる重要な課題である。
論文参考訳（メタデータ） (2023-09-21T16:21:28Z)
Med-Flamingo: a Multimodal Medical Few-shot Learner [58.85676013818811]
医療領域に適応したマルチモーダル・数ショット学習者であるMed-Flamingoを提案する。 OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。本研究は,医療用VQA(ジェネレーティブ医療用VQA)の最初の人間評価である。
論文参考訳（メタデータ） (2023-07-27T20:36:02Z)
PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。 PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文参考訳（メタデータ） (2023-05-17T17:50:16Z)
ViMQ: A Vietnamese Medical Question Dataset for Healthcare Dialogue System Development [1.4315915057750197]
ベトナムでは,文レベルおよびエンティティレベルのアノテーションを持つ患者からの医療質問のデータセットを公開している。本研究では,スパンノイズモデルを用いた簡易な自己教師型学習手法を提案する。
論文参考訳（メタデータ） (2023-04-27T17:59:53Z)
Towards Medical Artificial General Intelligence via Knowledge-Enhanced Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-04-26T01:26:19Z)
Medical Visual Question Answering: A Survey [55.53205317089564]
VQA(Medicical Visual Question Answering)は、医療用人工知能と一般的なVQA課題の組み合わせである。医療用VQAシステムは,医療用画像と自然言語による臨床的に関連性のある質問を前提として,妥当かつ説得力のある回答を予測することが期待されている。
論文参考訳（メタデータ） (2021-11-19T05:55:15Z)
SLAKE: A Semantically-Labeled Knowledge-Enhanced Dataset for Medical Visual Question Answering [29.496389523654596]
経験者によって注釈付けされた包括的セマンティックラベルを用いた大規模なバイリンガルデータセットSLAKEを提示する。さらに、SLAKEはよりリッチなモダリティを含み、現在利用可能なデータセットよりも多くの人体部分をカバーする。
論文参考訳（メタデータ） (2021-02-18T18:44:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。