論文の概要: MedGen: Unlocking Medical Video Generation by Scaling Granularly-annotated Medical Videos
- arxiv url: http://arxiv.org/abs/2507.05675v1
- Date: Tue, 08 Jul 2025 04:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.568689
- Title: MedGen: Unlocking Medical Video Generation by Scaling Granularly-annotated Medical Videos
- Title(参考訳): MedGen:医療用ビデオのスケール拡大による医療用ビデオ生成のロック解除
- Authors: Rongsheng Wang, Junying Chen, Ke Ji, Zhenyang Cai, Shunian Chen, Yunjin Yang, Benyou Wang,
- Abstract要約: MedVideoCap-55Kは、医用ビデオ生成のための、最初の大規模、多様な、キャプションに富んだデータセットである。
実際の医療シナリオにまたがる55,000以上のキュレートされたクリップで構成されている。
このデータセット上に構築されたMedGenは,オープンソースモデル間での先行的なパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 16.86256309424395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in video generation have shown remarkable progress in open-domain settings, yet medical video generation remains largely underexplored. Medical videos are critical for applications such as clinical training, education, and simulation, requiring not only high visual fidelity but also strict medical accuracy. However, current models often produce unrealistic or erroneous content when applied to medical prompts, largely due to the lack of large-scale, high-quality datasets tailored to the medical domain. To address this gap, we introduce MedVideoCap-55K, the first large-scale, diverse, and caption-rich dataset for medical video generation. It comprises over 55,000 curated clips spanning real-world medical scenarios, providing a strong foundation for training generalist medical video generation models. Built upon this dataset, we develop MedGen, which achieves leading performance among open-source models and rivals commercial systems across multiple benchmarks in both visual quality and medical accuracy. We hope our dataset and model can serve as a valuable resource and help catalyze further research in medical video generation. Our code and data is available at https://github.com/FreedomIntelligence/MedGen
- Abstract(参考訳): 最近のビデオ生成の進歩は、オープンドメイン設定の顕著な進歩を示しているが、医療用ビデオ生成は、ほとんど探索されていない。
医療ビデオは、臨床訓練、教育、シミュレーションなどの応用に重要であり、高い視力だけでなく、厳格な医療精度も必要である。
しかし、現在のモデルでは、医療領域に合わせた大規模で高品質なデータセットが欠如しているため、医療のプロンプトに適用した場合、しばしば非現実的または誤った内容を生成する。
MedVideoCap-55Kは,医療用ビデオ生成のための大規模,多種多様な,キャプションに富んだデータセットである。
実際の医療シナリオにまたがる55,000以上のキュレートされたクリップで構成されており、一般の医療ビデオ生成モデルをトレーニングするための強力な基盤となっている。
このデータセットの上に構築されたMedGenは、オープンソースのモデル間で主要なパフォーマンスを実現し、視覚的品質と医療的正確性の両方において、複数のベンチマークで商用システムと競合する。
私たちのデータセットとモデルが貴重なリソースとなり、医療ビデオ生成のさらなる研究を促進することを願っています。
私たちのコードとデータはhttps://github.com/FreedomIntelligence/MedGenで入手可能です。
関連論文リスト
- MedGemma Technical Report [76.28035910388918]
MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。
MedGemmaは、画像とテキストの高度な医学的理解と推論を実証する。
また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:01:44Z) - UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities [68.12889379702824]
対照的な学習によって訓練された視覚言語モデル(VLM)は、自然画像タスクにおいて顕著な成功を収めた。
UniMedは530万以上の画像テキストペアからなる、大規模でオープンソースのマルチモーダル医療データセットである。
我々は、6つのモダリティのための統一VLMであるUniMed-CLIPを訓練し、ゼロショット評価において顕著な利益を得た。
論文 参考訳(メタデータ) (2024-12-13T18:59:40Z) - Artificial Intelligence for Biomedical Video Generation [8.21248952391087]
Soraのようなモデルの導入は、ビデオ生成技術の画期的なブレークスルーを表している。
ビデオ生成技術は、医療概念の説明、疾患シミュレーション、バイオメディカルデータ拡張など、大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-11-12T08:05:58Z) - Bora: Biomedical Generalist Video Generation Model [20.572771714879856]
本稿では,テキスト誘導型バイオメディカルビデオ生成のための最初のモデルであるBoraを紹介する。
新たに確立された医用ビデオコーパスを用いて、モデルアライメントとインストラクションチューニングによって微調整を行う。
Boraは、4つの異なるバイオメディカルドメインにわたる高品質なビデオデータを生成することができる。
論文 参考訳(メタデータ) (2024-07-12T03:00:25Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Endora: Video Generation Models as Endoscopy Simulators [53.72175969751398]
本稿では,臨床内視鏡シーンをシミュレートする医用ビデオを作成するための革新的な手法であるモデルを紹介する。
また、ビデオ生成モデルを用いた内視鏡シミュレーションのための最初の公開ベンチマークを開拓した。
Endoraは、臨床内視鏡研究のための生成AIの展開において、注目すべきブレークスルーとなる。
論文 参考訳(メタデータ) (2024-03-17T00:51:59Z) - Med-Flamingo: a Multimodal Medical Few-shot Learner [58.85676013818811]
医療領域に適応したマルチモーダル・数ショット学習者であるMed-Flamingoを提案する。
OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。
本研究は,医療用VQA(ジェネレーティブ医療用VQA)の最初の人間評価である。
論文 参考訳(メタデータ) (2023-07-27T20:36:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。