論文の概要: How Well Can General Vision-Language Models Learn Medicine By Watching Public Educational Videos?
- arxiv url: http://arxiv.org/abs/2504.14391v2
- Date: Thu, 22 May 2025 00:02:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 14:49:22.139973
- Title: How Well Can General Vision-Language Models Learn Medicine By Watching Public Educational Videos?
- Title(参考訳): 一般ビジョン・ランゲージモデルでは、公共教育ビデオで医学を学べるか?
- Authors: Rahul Thapa, Andrew Li, Qingyang Wu, Bryan He, Yuki Sahashi, Christina Binder, Angela Zhang, Ben Athiwaratkun, Shuaiwen Leon Song, David Ouyang, James Zou,
- Abstract要約: 人間の学習のために作られた教育ビデオは、生体医用視覚言語モデルのための驚くほど効果的な訓練信号を提供する。
OpenBiomedVidは、現実世界の教育コンテンツに根ざした指導スタイルの監督を提供することで、重要なギャップを埋める。
- 参考スコア(独自算出の注目度): 22.923099605041052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Publicly available biomedical videos, such as those on YouTube, serve as valuable educational resources for medical students. Unlike standard machine learning datasets, these videos are designed for human learners, often mixing medical imagery with narration, explanatory diagrams, and contextual framing. In this work, we investigate whether such pedagogically rich, yet non-standardized and heterogeneous videos can effectively teach general-domain vision-language models biomedical knowledge. To this end, we introduce OpenBiomedVi, a biomedical video instruction tuning dataset comprising 1031 hours of video-caption and Q/A pairs, curated through a multi-step human-in-the-loop pipeline. Diverse biomedical video datasets are rare, and OpenBiomedVid fills an important gap by providing instruction-style supervision grounded in real-world educational content. Surprisingly, despite the informal and heterogeneous nature of these videos, the fine-tuned Qwen-2-VL models exhibit substantial performance improvements across most benchmarks. The 2B model achieves gains of 98.7% on video tasks, 71.2% on image tasks, and 0.2% on text tasks. The 7B model shows improvements of 37.09% on video and 11.2% on image tasks, with a slight degradation of 2.7% on text tasks compared to their respective base models. To address the lack of standardized biomedical video evaluation datasets, we also introduce two new expert curated benchmarks, MIMICEchoQA and SurgeryVideoQA. On these benchmarks, the 2B model achieves gains of 99.1% and 98.1%, while the 7B model shows gains of 22.5% and 52.1%, respectively, demonstrating the models' ability to generalize and perform biomedical video understanding on cleaner and more standardized datasets than those seen during training. These results suggest that educational videos created for human learning offer a surprisingly effective training signal for biomedical VLMs.
- Abstract(参考訳): YouTubeなどの一般公開されたバイオメディカルビデオは、医学生にとって貴重な教育資源となっている。
通常の機械学習データセットとは異なり、これらのビデオは人間の学習者向けに設計されており、しばしば医療画像にナレーション、説明図、コンテキストフレーミングを混ぜる。
本研究では、このような教育的にリッチで、標準化されていない、異種なビデオが、一般ドメインの視覚言語モデルにバイオメディカル知識を効果的に教えることができるかどうかを考察する。
この目的のために,多段階のヒューマン・イン・ザ・ループ・パイプラインを通した1031時間のビデオキャプチャとQ/Aペアからなるバイオメディカル・ビデオ・インストラクション・チューニング・データセットであるOpenBiomedViを紹介した。
多様なバイオメディカルビデオデータセットはまれであり、OpenBiomedVidは現実世界の教育コンテンツに根ざした指導スタイルの監督を提供することで、重要なギャップを埋める。
驚くべきことに、これらのビデオの非公式で異質な性質にもかかわらず、微調整されたQwen-2-VLモデルは、ほとんどのベンチマークで大幅に性能が向上した。
2Bモデルは、ビデオタスクで98.7%、画像タスクで71.2%、テキストタスクで0.2%の上昇を達成した。
7Bモデルはビデオの37.09%、画像の11.2%の改善、テキストの2.7%の劣化を示している。
標準化されたバイオメディカルビデオ評価データセットの欠如に対処するため,MIMICEchoQA と SurgeryVideoQA という2つの新しい専門家によるベンチマークも導入した。
これらのベンチマークでは、2Bモデルは99.1%と98.1%のゲインを達成し、7Bモデルは22.5%と52.1%のゲインを示し、トレーニング中よりもクリーンでより標準化されたデータセットに対して、バイオメディカルなビデオ理解を一般化し実行する能力を実証している。
これらの結果は、人間の学習のために作られた教育ビデオが、バイオメディカルVLMに驚くほど効果的な訓練信号を提供することを示唆している。
関連論文リスト
- PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding [126.15907330726067]
我々は、画像とビデオの理解において透過的な研究を行うために、完全にオープンで再現可能なフレームワークでパーセプションモデル言語(PLM)を構築した。
モデルからの蒸留なしで標準的な訓練パイプラインを分析し、大規模合成データを調べ、重要なデータギャップを識別する。
論文 参考訳(メタデータ) (2025-04-17T17:59:56Z) - Bora: Biomedical Generalist Video Generation Model [20.572771714879856]
本稿では,テキスト誘導型バイオメディカルビデオ生成のための最初のモデルであるBoraを紹介する。
新たに確立された医用ビデオコーパスを用いて、モデルアライメントとインストラクションチューニングによって微調整を行う。
Boraは、4つの異なるバイオメディカルドメインにわたる高品質なビデオデータを生成することができる。
論文 参考訳(メタデータ) (2024-07-12T03:00:25Z) - Revisiting Feature Prediction for Learning Visual Representations from Video [62.08833572467379]
V-JEPAは、機能予測の目的のみを用いて訓練された視覚モデルの集合である。
モデルは、公開データセットから収集された200万のビデオに基づいてトレーニングされる。
以上の結果から,映像特徴の予測による学習が視覚表現の多目的化につながることが示唆された。
論文 参考訳(メタデータ) (2024-02-15T18:59:11Z) - Advancing Human Action Recognition with Foundation Models trained on Unlabeled Public Videos [2.3247413495885647]
我々は283,582本のTikTokビデオクリップを使用して、386のハッシュタグに分類し、ドメイン固有のアクション認識基盤モデルをトレーニングしている。
UCF101は99.05%、HMDB51は86.08%、Kinetics-400は85.51%、V2は74.27%である。
論文 参考訳(メタデータ) (2024-02-14T00:41:10Z) - ViLP: Knowledge Exploration using Vision, Language, and Pose Embeddings
for Video Action Recognition [4.36572039512405]
本稿では,ビデオ行動認識のための視覚言語モデル(VLM)について紹介する。
特に、この手法は2つの一般的な人間のビデオ行動認識ベンチマークデータセットにおいて、92.81%と73.02%の精度を達成する。
論文 参考訳(メタデータ) (2023-08-07T20:50:54Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - Masked Video Distillation: Rethinking Masked Feature Modeling for
Self-supervised Video Representation Learning [123.63301596019522]
Masked Video distillation (MVD) は、ビデオ表現学習のための単純な2段階マスク付き特徴モデリングフレームワークである。
教師モデルを選択するために,ビデオ教師が教える生徒が時間重のビデオタスクにおいて,より優れたパフォーマンスを発揮することを観察する。
我々は,異なる教師の利点を活用するために,MVDのための時空間協調学習法を設計する。
論文 参考訳(メタデータ) (2022-12-08T18:59:59Z) - InternVideo: General Video Foundation Models via Generative and
Discriminative Learning [52.69422763715118]
動的および複雑なビデオレベルの理解タスクのための一般的なビデオ基盤モデルであるInternVideoを提案する。
InternVideoは、事前学習対象として、マスク付きビデオモデリングとビデオ言語コントラスト学習を効率的に探索する。
InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-06T18:09:49Z) - How Would The Viewer Feel? Estimating Wellbeing From Video Scenarios [73.24092762346095]
情緒応答と主観的幸福感に注釈を付けた6万本以上のビデオを備えた大規模データセットを2つ導入した。
Video Cognitive Empathyデータセットには、微粒な感情応答の分布のためのアノテーションが含まれており、モデルが感情状態の詳細な理解を得ることができる。
Video to Valenceデータセットには、ビデオ間の相対的な快適性のアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-10-18T17:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。