論文の概要: Bora: Biomedical Generalist Video Generation Model
- arxiv url: http://arxiv.org/abs/2407.08944v1
- Date: Fri, 12 Jul 2024 03:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 01:06:33.972401
- Title: Bora: Biomedical Generalist Video Generation Model
- Title(参考訳): Bora:バイオメディカルジェネリストのビデオ生成モデル
- Authors: Weixiang Sun, Xiaocao You, Ruizhe Zheng, Zhengqing Yuan, Xiang Li, Lifang He, Quanzheng Li, Lichao Sun,
- Abstract要約: 本稿では,テキスト誘導型バイオメディカルビデオ生成のための最初のモデルであるBoraを紹介する。
新たに確立された医用ビデオコーパスを用いて、モデルアライメントとインストラクションチューニングによって微調整を行う。
Boraは、4つの異なるバイオメディカルドメインにわたる高品質なビデオデータを生成することができる。
- 参考スコア(独自算出の注目度): 20.572771714879856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models hold promise for revolutionizing medical education, robot-assisted surgery, and data augmentation for medical AI development. Diffusion models can now generate realistic images from text prompts, while recent advancements have demonstrated their ability to create diverse, high-quality videos. However, these models often struggle with generating accurate representations of medical procedures and detailed anatomical structures. This paper introduces Bora, the first spatio-temporal diffusion probabilistic model designed for text-guided biomedical video generation. Bora leverages Transformer architecture and is pre-trained on general-purpose video generation tasks. It is fine-tuned through model alignment and instruction tuning using a newly established medical video corpus, which includes paired text-video data from various biomedical fields. To the best of our knowledge, this is the first attempt to establish such a comprehensive annotated biomedical video dataset. Bora is capable of generating high-quality video data across four distinct biomedical domains, adhering to medical expert standards and demonstrating consistency and diversity. This generalist video generative model holds significant potential for enhancing medical consultation and decision-making, particularly in resource-limited settings. Additionally, Bora could pave the way for immersive medical training and procedure planning. Extensive experiments on distinct medical modalities such as endoscopy, ultrasound, MRI, and cell tracking validate the effectiveness of our model in understanding biomedical instructions and its superior performance across subjects compared to state-of-the-art generation models.
- Abstract(参考訳): 生成モデルは、医療教育の革新、ロボット支援手術、医療AI開発のためのデータ拡張を約束する。
拡散モデルはテキストプロンプトからリアルな画像を生成できるようになったが、最近の進歩は、多種多様な高品質のビデオを作成する能力を示している。
しかしながら、これらのモデルは、医療処置の正確な表現と詳細な解剖学的構造の生成に苦慮することが多い。
本稿では,テキスト誘導バイオメディカルビデオ生成のための最初の時空間拡散確率モデルであるBoraを紹介する。
BoraはTransformerアーキテクチャを活用し、汎用ビデオ生成タスクで事前訓練されている。
様々な医療分野のテキストビデオデータを含む,新たに確立された医用ビデオコーパスを用いて,モデルアライメントとインストラクションチューニングによって微調整を行う。
私たちの知る限りでは、このような包括的な注釈付きバイオメディカルビデオデータセットを確立するための最初の試みである。
Boraは、4つの異なるバイオメディカル領域にまたがる高品質なビデオデータを生成し、医療専門家の基準に準拠し、一貫性と多様性を示す。
このジェネラリストビデオ生成モデルは、特にリソース限定の設定において、医療相談や意思決定の強化に重要な可能性を秘めている。
さらに、ボラは没入型医療訓練と手続き計画の道を開くことができる。
内視鏡, 超音波, MRI, 細胞追跡などの異なる医用モダリティに関する広範囲な実験により, 生医学的指示を理解する上での本モデルの有効性と, 最先端の世代モデルと比較して, 被験者間での優れた性能が検証された。
関連論文リスト
- Artificial Intelligence for Biomedical Video Generation [8.21248952391087]
Soraのようなモデルの導入は、ビデオ生成技術の画期的なブレークスルーを表している。
ビデオ生成技術は、医療概念の説明、疾患シミュレーション、バイオメディカルデータ拡張など、大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-11-12T08:05:58Z) - SurGen: Text-Guided Diffusion Model for Surgical Video Generation [0.6551407780976953]
SurGenは、外科用ビデオ合成に適したテキスト誘導拡散モデルである。
標準画像およびビデオ生成指標を用いて,出力の視覚的および時間的品質を検証する。
本研究は, 外科研修生に有用な教育ツールとして, 拡散モデルが有用であることを示すものである。
論文 参考訳(メタデータ) (2024-08-26T05:38:27Z) - Endora: Video Generation Models as Endoscopy Simulators [53.72175969751398]
本稿では,臨床内視鏡シーンをシミュレートする医用ビデオを作成するための革新的な手法であるモデルを紹介する。
また、ビデオ生成モデルを用いた内視鏡シミュレーションのための最初の公開ベンチマークを開拓した。
Endoraは、臨床内視鏡研究のための生成AIの展開において、注目すべきブレークスルーとなる。
論文 参考訳(メタデータ) (2024-03-17T00:51:59Z) - BiomedJourney: Counterfactual Biomedical Image Generation by
Instruction-Learning from Multimodal Patient Journeys [99.7082441544384]
本稿では,インストラクション学習によるバイオメディカル画像生成のための新しい手法であるBiomedJourneyを紹介する。
我々は、GPT-4を用いて、対応する画像レポートを処理し、疾患進行の自然言語記述を生成する。
得られた三重項は、反現実的なバイオメディカル画像生成のための潜伏拡散モデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-10-16T18:59:31Z) - Towards Generalist Biomedical AI [28.68106423175678]
我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。
Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。
モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
論文 参考訳(メタデータ) (2023-07-26T17:52:22Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - LLaVA-Med: Training a Large Language-and-Vision Assistant for
Biomedicine in One Day [85.19963303642427]
本稿では,バイオメディカルイメージのオープンな研究課題に答えられる視覚言語対話アシスタントを訓練するための費用効率のよいアプローチを提案する。
モデルはまず、フィギュア・キャプションのペアを使ってバイオメディカル・ボキャブラリをアライメントし、その後、オープンエンドの会話意味論を習得する。
これにより、バイオメディジンのための大規模言語と視覚アシスタントを15時間以内で(8つのA100で)訓練することができる。
論文 参考訳(メタデータ) (2023-06-01T16:50:07Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - BiomedCLIP: a multimodal biomedical foundation model pretrained from
fifteen million scientific image-text pairs [48.376109878173956]
PMC-15Mは,既存のバイオメディカル・マルチモーダル・データセットよりも2桁大きい新しいデータセットである。
PMC-15Mは440万の科学論文から収集された1500万のバイオメディカル画像テキスト対を含んでいる。
PMC-15Mに基づいて,生物医学的視覚言語処理に適したドメイン固有適応を備えた多モーダル基礎モデルであるBiomedCLIPを事前訓練した。
論文 参考訳(メタデータ) (2023-03-02T02:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。