論文の概要: Towards Answering Health-related Questions from Medical Videos: Datasets
and Approaches
- arxiv url: http://arxiv.org/abs/2309.12224v1
- Date: Thu, 21 Sep 2023 16:21:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 14:18:59.749088
- Title: Towards Answering Health-related Questions from Medical Videos: Datasets
and Approaches
- Title(参考訳): 医療ビデオからの健康問題への回答に向けて:データセットとアプローチ
- Authors: Deepak Gupta, Kush Attal, and Dina Demner-Fushman
- Abstract要約: 多くの個人が、特定のタスクを達成するための一連のステップバイステップの手順を提供するため、指導ビデオを好むようになった。
医療領域からの指導ビデオは、第一支援、救急、および医療教育に関する質問に対する最良の視覚的回答を提供することができる。
医療分野における大規模なデータセットの不足は、公衆の健康に関する質問に役立てるアプリケーションの開発を妨げる重要な課題である。
- 参考スコア(独自算出の注目度): 21.16331827504689
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The increase in the availability of online videos has transformed the way we
access information and knowledge. A growing number of individuals now prefer
instructional videos as they offer a series of step-by-step procedures to
accomplish particular tasks. The instructional videos from the medical domain
may provide the best possible visual answers to first aid, medical emergency,
and medical education questions. Toward this, this paper is focused on
answering health-related questions asked by the public by providing visual
answers from medical videos. The scarcity of large-scale datasets in the
medical domain is a key challenge that hinders the development of applications
that can help the public with their health-related questions. To address this
issue, we first proposed a pipelined approach to create two large-scale
datasets: HealthVidQA-CRF and HealthVidQA-Prompt. Later, we proposed monomodal
and multimodal approaches that can effectively provide visual answers from
medical videos to natural language questions. We conducted a comprehensive
analysis of the results, focusing on the impact of the created datasets on
model training and the significance of visual features in enhancing the
performance of the monomodal and multi-modal approaches. Our findings suggest
that these datasets have the potential to enhance the performance of medical
visual answer localization tasks and provide a promising future direction to
further enhance the performance by using pre-trained language-vision models.
- Abstract(参考訳): オンラインビデオの可用性が向上したことで、情報や知識へのアクセス方法が変わりました。
多くの個人が、特定のタスクを達成するための一連のステップバイステップの手順を提供するため、指導ビデオを好むようになった。
医療領域からの指導ビデオは、第一支援、救急、および医療教育に関する質問に対する最良の視覚的回答を提供することができる。
そこで本研究では,医療ビデオからの視覚的回答を提供することにより,公衆の質問に答えることに焦点をあてる。
医療分野における大規模なデータセットの不足は、公衆の健康に関する質問に役立てるアプリケーションの開発を妨げる重要な課題である。
この問題に対処するため、私たちはまず、HealthVidQA-CRFとHealthVidQA-Promptという2つの大規模データセットを作成するパイプライン化アプローチを提案しました。
その後,医療映像から自然言語質問への視覚的回答を効果的に提供できるモノモーダルおよびマルチモーダルアプローチを提案した。
その結果を総合的に分析し、モデルトレーニングにおけるデータセットの影響と、モノモーダルおよびマルチモーダルアプローチの性能向上における視覚的特徴の重要性に着目した。
以上の結果から,これらのデータセットは,医学的視覚応答の局所化タスクの性能を高める可能性があり,事前訓練された言語ビジョンモデルを用いて,さらなるパフォーマンス向上を期待できると考えられる。
関連論文リスト
- A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。
STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文 参考訳(メタデータ) (2024-06-28T15:01:23Z) - MISS: A Generative Pretraining and Finetuning Approach for Med-VQA [16.978523518972533]
本稿では,医療用VQAタスクのためのMultI-task Self-Supervised Learning based framework (MISS)を提案する。
我々は,テキストエンコーダとマルチモーダルエンコーダを統一し,マルチタスク学習を通じて画像テキスト機能を調整する。
提案手法は,より少ないマルチモーダルデータセットで優れた結果を得るとともに,生成VQAモデルの利点を実証する。
論文 参考訳(メタデータ) (2024-01-10T13:56:40Z) - Medical Vision Language Pretraining: A survey [8.393439175704124]
医療ビジョン言語事前訓練は、医療領域におけるラベル付きデータの不足に対する有望な解決策である。
自己教師付き学習を通じてペア/アンペアの視覚とテキストデータセットを活用することで、モデルは膨大な知識を取得し、堅牢な特徴表現を学ぶように訓練することができる。
論文 参考訳(メタデータ) (2023-12-11T09:14:13Z) - Masked Vision and Language Pre-training with Unimodal and Multimodal
Contrastive Losses for Medical Visual Question Answering [7.669872220702526]
本稿では,入力画像とテキストの非モーダル・マルチモーダル特徴表現を学習する,新しい自己教師型アプローチを提案する。
提案手法は,3つの医用VQAデータセット上での最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-07-11T15:00:11Z) - LLaVA-Med: Training a Large Language-and-Vision Assistant for
Biomedicine in One Day [85.19963303642427]
本稿では,バイオメディカルイメージのオープンな研究課題に答えられる視覚言語対話アシスタントを訓練するための費用効率のよいアプローチを提案する。
モデルはまず、フィギュア・キャプションのペアを使ってバイオメディカル・ボキャブラリをアライメントし、その後、オープンエンドの会話意味論を習得する。
これにより、バイオメディジンのための大規模言語と視覚アシスタントを15時間以内で(8つのA100で)訓練することができる。
論文 参考訳(メタデータ) (2023-06-01T16:50:07Z) - PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering [56.25766322554655]
MedVQA(Medicical Visual Question Answering)は、診断精度と医療提供を向上する重要な機会を提供する。
本稿では,事前学習した視覚エンコーダの視覚情報を大規模言語モデルに整列させることにより,医用視覚理解のための生成モデルを提案する。
PMC-VQAで提案されたモデルをトレーニングし、VQA-RAD、SLAKE、Image-Clef 2019など、複数の公開ベンチマークで微調整する。
論文 参考訳(メタデータ) (2023-05-17T17:50:16Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - Can Pre-trained Vision and Language Models Answer Visual
Information-Seeking Questions? [50.29862466940209]
情報検索に適した視覚的質問応答データセットであるInfoSeekを紹介する。
事前学習した様々な視覚的質問応答モデルを分析し,その特徴について考察する。
関連文書を検索することでInfoSeekの性能を向上させるために,正確な視覚的実体認識が利用できることを示す。
論文 参考訳(メタデータ) (2023-02-23T00:33:54Z) - A Dataset for Medical Instructional Video Classification and Question
Answering [16.748852458926162]
本稿では,医療ビデオの理解を支援するシステム設計に向けた新たな課題とデータセットについて紹介する。
医療ビデオは多くの救急、救急、医療教育に関する質問に対して、可能な限りの回答を提供するだろうと信じています。
我々は,MedVidCLとMedVidQAデータセットを用いて各タスクをベンチマークし,マルチモーダル学習手法を提案する。
論文 参考訳(メタデータ) (2022-01-30T18:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。