論文の概要: Ophora: A Large-Scale Data-Driven Text-Guided Ophthalmic Surgical Video Generation Model
- arxiv url: http://arxiv.org/abs/2505.07449v3
- Date: Fri, 16 May 2025 08:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 12:32:17.872937
- Title: Ophora: A Large-Scale Data-Driven Text-Guided Ophthalmic Surgical Video Generation Model
- Title(参考訳): Ophora:大規模データ駆動型テキストガイド眼科手術ビデオ生成モデル
- Authors: Wei Li, Ming Hu, Guoan Wang, Lihao Liu, Kaijin Zhou, Junzhi Ning, Xin Guo, Zongyuan Ge, Lixu Gu, Junjun He,
- Abstract要約: 眼科手術では、手術映像を解釈し、その後の手術を予測することができるAIシステムの開発には、高品質なアノテーションを備えた多数の眼科手術ビデオが必要である。
我々は,眼科手術映像を自然言語で生成できる先駆的モデルであるOphoraについて紹介する。
- 参考スコア(独自算出の注目度): 16.93200004755341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In ophthalmic surgery, developing an AI system capable of interpreting surgical videos and predicting subsequent operations requires numerous ophthalmic surgical videos with high-quality annotations, which are difficult to collect due to privacy concerns and labor consumption. Text-guided video generation (T2V) emerges as a promising solution to overcome this issue by generating ophthalmic surgical videos based on surgeon instructions. In this paper, we present Ophora, a pioneering model that can generate ophthalmic surgical videos following natural language instructions. To construct Ophora, we first propose a Comprehensive Data Curation pipeline to convert narrative ophthalmic surgical videos into a large-scale, high-quality dataset comprising over 160K video-instruction pairs, Ophora-160K. Then, we propose a Progressive Video-Instruction Tuning scheme to transfer rich spatial-temporal knowledge from a T2V model pre-trained on natural video-text datasets for privacy-preserved ophthalmic surgical video generation based on Ophora-160K. Experiments on video quality evaluation via quantitative analysis and ophthalmologist feedback demonstrate that Ophora can generate realistic and reliable ophthalmic surgical videos based on surgeon instructions. We also validate the capability of Ophora for empowering downstream tasks of ophthalmic surgical workflow understanding. Code is available at https://github.com/mar-cry/Ophora.
- Abstract(参考訳): 眼科手術では,手術映像を解釈し,術後の手術を予測できるAIシステムの開発には,高品質なアノテーションを備えた多数の眼科手術ビデオが必要である。
テキスト誘導ビデオ生成(T2V)は、外科医の指示に基づいて眼科手術ビデオを生成することにより、この問題を克服するための有望な解決策として現れる。
本稿では,自然言語による眼科手術映像を生成可能な先駆的モデルであるOphoraを提案する。
Ophoraを構築するために,我々はまず,ナラティブ眼科手術映像を160K以上のビデオ命令ペアOphora-160Kからなる大規模かつ高品質なデータセットに変換するための包括的データキュレーションパイプラインを提案する。
そこで,我々は,Ophora-160Kに基づくプライバシー保護眼科手術用ビデオ生成のための自然なビデオテキストデータセットに基づいて事前訓練したT2Vモデルから,豊富な空間的知識を伝達するプログレッシブ・ビデオ・インストラクション・チューニング手法を提案する。
定量的分析と眼科医のフィードバックによる映像品質評価実験により,オフォラがリアルで信頼性の高い眼科手術映像を外科医の指示に基づいて生成できることが実証された。
また,眼科手術ワークフロー理解の下流作業を支援するOphoraの有用性についても検証した。
コードはhttps://github.com/mar-cry/Ophora.comで入手できる。
関連論文リスト
- OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [60.75854609803651]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。
OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。
我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文 参考訳(メタデータ) (2024-11-23T02:53:08Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - SurGen: Text-Guided Diffusion Model for Surgical Video Generation [0.6551407780976953]
SurGenは、外科用ビデオ合成に適したテキスト誘導拡散モデルである。
標準画像およびビデオ生成指標を用いて,出力の視覚的および時間的品質を検証する。
本研究は, 外科研修生に有用な教育ツールとして, 拡散モデルが有用であることを示すものである。
論文 参考訳(メタデータ) (2024-08-26T05:38:27Z) - LLaVA-Surg: Towards Multimodal Surgical Assistant via Structured Surgical Video Learning [15.646322352232819]
新しいデータセットであるSurg-QAを作成し、手術用ビデオインストラクションペアを102,000個作成する。
手術知識を学習するために, LLMを用いた2段階質問応答生成パイプラインを提案する。
LLaVA-Surgは、手術ビデオに関するオープンな質問に答えられる新しい視覚言語対話アシスタントだ。
論文 参考訳(メタデータ) (2024-08-15T07:00:20Z) - OphNet: A Large-Scale Video Benchmark for Ophthalmic Surgical Workflow Understanding [26.962250661485967]
OphNetは、眼科の外科的ワークフロー理解のための、大規模な、専門家による注釈付きビデオベンチマークである。
66種類の白内障、緑内障、角膜手術にまたがる2,278本の外科的ビデオの多彩なコレクションがあり、102個のユニークな外科的フェーズと150個の微細な手術の詳細な注記がある。
OphNetは、既存の最大の外科的ワークフロー分析ベンチマークの約20倍の大きさである。
論文 参考訳(メタデータ) (2024-06-11T17:18:11Z) - Endora: Video Generation Models as Endoscopy Simulators [53.72175969751398]
本稿では,臨床内視鏡シーンをシミュレートする医用ビデオを作成するための革新的な手法であるモデルを紹介する。
また、ビデオ生成モデルを用いた内視鏡シミュレーションのための最初の公開ベンチマークを開拓した。
Endoraは、臨床内視鏡研究のための生成AIの展開において、注目すべきブレークスルーとなる。
論文 参考訳(メタデータ) (2024-03-17T00:51:59Z) - Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [50.09187683845788]
手術用コンピュータビジョンの応用の最近の進歩は、視覚のみのモデルによって駆動されている。
これらの手法は、固定されたオブジェクトカテゴリのセットを予測するために手動で注釈付き手術ビデオに依存する。
本研究では,オープンな外科的eラーニングプラットフォームを通じて提供される外科的ビデオ講義が,効果的な視覚と言語監督の信号を提供することができるという考えを提起した。
論文 参考訳(メタデータ) (2023-07-27T22:38:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。