論文の概要: Endora: Video Generation Models as Endoscopy Simulators
- arxiv url: http://arxiv.org/abs/2403.11050v1
- Date: Sun, 17 Mar 2024 00:51:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 20:27:00.458564
- Title: Endora: Video Generation Models as Endoscopy Simulators
- Title(参考訳): 内視鏡シミュレータとしての映像生成モデル
- Authors: Chenxin Li, Hengyu Liu, Yifan Liu, Brandon Y. Feng, Wuyang Li, Xinyu Liu, Zhen Chen, Jing Shao, Yixuan Yuan,
- Abstract要約: 本稿では,臨床内視鏡シーンをシミュレートする医用ビデオを作成するための革新的な手法であるモデルを紹介する。
また、ビデオ生成モデルを用いた内視鏡シミュレーションのための最初の公開ベンチマークを開拓した。
Endoraは、臨床内視鏡研究のための生成AIの展開において、注目すべきブレークスルーとなる。
- 参考スコア(独自算出の注目度): 53.72175969751398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models hold promise for revolutionizing medical education, robot-assisted surgery, and data augmentation for machine learning. Despite progress in generating 2D medical images, the complex domain of clinical video generation has largely remained untapped.This paper introduces \model, an innovative approach to generate medical videos that simulate clinical endoscopy scenes. We present a novel generative model design that integrates a meticulously crafted spatial-temporal video transformer with advanced 2D vision foundation model priors, explicitly modeling spatial-temporal dynamics during video generation. We also pioneer the first public benchmark for endoscopy simulation with video generation models, adapting existing state-of-the-art methods for this endeavor.Endora demonstrates exceptional visual quality in generating endoscopy videos, surpassing state-of-the-art methods in extensive testing. Moreover, we explore how this endoscopy simulator can empower downstream video analysis tasks and even generate 3D medical scenes with multi-view consistency. In a nutshell, Endora marks a notable breakthrough in the deployment of generative AI for clinical endoscopy research, setting a substantial stage for further advances in medical content generation. For more details, please visit our project page: https://endora-medvidgen.github.io/.
- Abstract(参考訳): 生成モデルは、医療教育の革新、ロボット支援手術、機械学習のためのデータ拡張を約束する。
医用2D画像の生成の進展にもかかわらず、臨床ビデオ生成の複雑な領域は未解決のままであり、臨床内視鏡シーンをシミュレートする医療用ビデオを生成する革新的なアプローチであるShamodelを紹介した。
本稿では,映像生成時に空間時間ダイナミクスを明示的にモデル化し,精密に製作された空間時空間ビデオトランスフォーマと高度な2次元視覚基盤モデルとを融合した新しい生成モデルを提案する。
また,ビデオ生成モデルを用いた内視鏡シミュレーションのための最初の公開ベンチマークを考案し,既存の最先端手法を応用した。
さらに、この内視鏡シミュレーターは、下流の映像解析タスクをどのように強化し、マルチビューの整合性で3次元の医療シーンを生成できるかを考察する。
簡単に言うと、Endoraは、臨床内視鏡研究のための生成AIの展開において、顕著なブレークスルーであり、医療コンテンツ生成のさらなる進歩に向けた重要な段階である。
詳細はプロジェクトのページを参照してください。
関連論文リスト
- SurGen: Text-Guided Diffusion Model for Surgical Video Generation [0.6551407780976953]
SurGenは、外科用ビデオ合成に適したテキスト誘導拡散モデルである。
標準画像およびビデオ生成指標を用いて,出力の視覚的および時間的品質を検証する。
本研究は, 外科研修生に有用な教育ツールとして, 拡散モデルが有用であることを示すものである。
論文 参考訳(メタデータ) (2024-08-26T05:38:27Z) - Bora: Biomedical Generalist Video Generation Model [20.572771714879856]
本稿では,テキスト誘導型バイオメディカルビデオ生成のための最初のモデルであるBoraを紹介する。
新たに確立された医用ビデオコーパスを用いて、モデルアライメントとインストラクションチューニングによって微調整を行う。
Boraは、4つの異なるバイオメディカルドメインにわたる高品質なビデオデータを生成することができる。
論文 参考訳(メタデータ) (2024-07-12T03:00:25Z) - Interactive Generation of Laparoscopic Videos with Diffusion Models [1.5488613349551188]
そこで本研究では,外科的動作をテキストで指定することで,現実的な腹腔鏡画像と映像を生成する方法について述べる。
我々は、Colecデータセットファミリを使用して、我々のアプローチの性能を実証する。
我々は38.097のFIDと0.71のF1スコアを達成する。
論文 参考訳(メタデータ) (2024-04-23T12:36:07Z) - MeshBrush: Painting the Anatomical Mesh with Neural Stylization for Endoscopy [0.8437187555622164]
スタイルトランスファーは、医療内視鏡におけるシミュレートとリアルのギャップを埋めるための有望なアプローチである。
術前スキャンによって合成内視鏡ビデオをレンダリングすると、構造的に正確なシミュレーションが生成される。
CycleGANはこれらのシミュレーションから現実的な内視鏡像を模倣することができるが、ビデオとビデオの合成には適さない。
時間的に一貫した映像を合成するニューラルネットワークスタイリング手法であるMeshBrushを提案する。
論文 参考訳(メタデータ) (2024-04-03T18:40:48Z) - Creating a Digital Twin of Spinal Surgery: A Proof of Concept [68.37190859183663]
手術デジタル化は、現実世界の手術の仮想レプリカを作成するプロセスである。
脊椎外科手術に応用した手術デジタル化のための概念実証(PoC)を提案する。
5台のRGB-Dカメラを外科医の動的3D再構成に、ハイエンドカメラを解剖学の3D再構成に、赤外線ステレオカメラを手術器具追跡に、レーザースキャナーを手術室の3D再構成とデータ融合に使用した。
論文 参考訳(メタデータ) (2024-03-25T13:09:40Z) - MeVGAN: GAN-based Plugin Model for Video Generation with Applications in
Colonoscopy [12.515404169717451]
我々は,GAN(Geneversarative Adrial Network)によるメモリ効率の良いビデオGAN(MeVGAN)を提案する。
事前訓練された2次元画像GANを用いて、ノイズ空間内の各軌跡を構築することにより、GANモデルを通して転送された軌跡が実写映像を構成する。
我々は,MeVGANが高品質な合成大腸内視鏡映像を制作できることを示し,仮想シミュレータで使用することができることを示した。
論文 参考訳(メタデータ) (2023-11-07T10:58:16Z) - BiomedJourney: Counterfactual Biomedical Image Generation by
Instruction-Learning from Multimodal Patient Journeys [99.7082441544384]
本稿では,インストラクション学習によるバイオメディカル画像生成のための新しい手法であるBiomedJourneyを紹介する。
我々は、GPT-4を用いて、対応する画像レポートを処理し、疾患進行の自然言語記述を生成する。
得られた三重項は、反現実的なバイオメディカル画像生成のための潜伏拡散モデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-10-16T18:59:31Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。