Fugu-MT 論文翻訳(概要): SurGen: Text-Guided Diffusion Model for Surgical Video Generation

論文の概要: SurGen: Text-Guided Diffusion Model for Surgical Video Generation

arxiv url: http://arxiv.org/abs/2408.14028v2
Date: Wed, 28 Aug 2024 18:06:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-30 18:15:34.388117
Title: SurGen: Text-Guided Diffusion Model for Surgical Video Generation
Title（参考訳）: SurGen:手術用ビデオ生成のためのテキストガイド拡散モデル
Authors: Joseph Cho, Samuel Schmidgall, Cyril Zakka, Mrudang Mathur, Rohan Shad, William Hiesinger,
Abstract要約: SurGenは、外科用ビデオ合成に適したテキスト誘導拡散モデルである。標準画像およびビデオ生成指標を用いて,出力の視覚的および時間的品質を検証する。本研究は, 外科研修生に有用な教育ツールとして, 拡散モデルが有用であることを示すものである。
参考スコア（独自算出の注目度）: 0.461803711540329
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Diffusion-based video generation models have made significant strides, producing outputs with improved visual fidelity, temporal coherence, and user control. These advancements hold great promise for improving surgical education by enabling more realistic, diverse, and interactive simulation environments. In this study, we introduce SurGen, a text-guided diffusion model tailored for surgical video synthesis, producing the highest resolution and longest duration videos among existing surgical video generation models. We validate the visual and temporal quality of the outputs using standard image and video generation metrics. Additionally, we assess their alignment to the corresponding text prompts through a deep learning classifier trained on surgical data. Our results demonstrate the potential of diffusion models to serve as valuable educational tools for surgical trainees.
Abstract（参考訳）: 拡散に基づくビデオ生成モデルは、視覚的忠実度、時間的コヒーレンス、ユーザコントロールを改善した出力を生成する。これらの進歩は、より現実的で多様な、インタラクティブなシミュレーション環境を可能にすることによって、外科教育を改善するための大きな約束を持っている。本研究では,手術用ビデオ合成に適したテキスト誘導拡散モデルであるSurGenを紹介する。標準画像およびビデオ生成指標を用いて,出力の視覚的および時間的品質を検証する。さらに,手術データに基づいて訓練された深層学習分類器を用いて,対応するテキストプロンプトへのアライメントを評価する。本研究は, 外科研修生に有用な教育ツールとして, 拡散モデルが有用であることを示すものである。

関連論文リスト

Improving Video Diffusion Transformer Training by Multi-Feature Fusion and Alignment from Self-Supervised Vision Encoders [59.98236644320787]
ビデオ拡散モデルの訓練は,映像生成装置の中間的特徴と事前学習された視覚エンコーダの特徴表現とを整合させることで有用であることを示す。本稿では,ビデオ拡散モデルトレーニングに統合された新しい多機能融合アライメント方法を提供するAlign4Genを提案する。
論文参考訳（メタデータ） (2025-09-11T15:39:27Z)
SurgLLM: A Versatile Large Multimodal Model with Spatial Focus and Temporal Awareness for Surgical Video Understanding [75.00667948967848]
SurgLLMフレームワークは、多用途の手術ビデオ理解タスクに適した、大規模なマルチモーダルモデルである。外科的ビデオの空間的焦点を高めるために,SurgLLMの動画エンコーダのためのSurg-Pretraining(Surg-Pretraining)を最初に考案した。外科的時間的知識をSurgLLMに組み込むため, インターリーブ型マルチモーダル埋め込みによる時間的推論を改善するために, 時間的対応型マルチモーダルチューニング(TM-Tuning)を提案する。
論文参考訳（メタデータ） (2025-08-30T04:36:41Z)
EndoGen: Conditional Autoregressive Endoscopic Video Generation [51.97720772069513]
本研究では,最初の条件付き内視鏡映像生成フレームワークであるEndoGenを提案する。具体的には、時空間グリッドフレームパターンを調整した自己回帰モデルを構築する。高品質で条件付き内視鏡コンテンツ作成におけるフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2025-07-23T10:32:20Z)
HieraSurg: Hierarchy-Aware Diffusion Model for Surgical Video Generation [44.37374628674769]
2つの専門拡散モデルからなる階層型手術ビデオ生成フレームワークであるHieraSurgを提案する。このモデルは、既存のセグメンテーションマップが提供される際に特にきめ細かい付着を示しており、実際的な外科的応用の可能性を示している。
論文参考訳（メタデータ） (2025-06-26T14:07:23Z)
SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model [55.13206879750197]
SurgVidLMは、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルである。手術ビデオの多段階的理解を行うための2段階フレームワークであるStageFocus機構について紹介する。実験結果から,SurgVidLMは全精細ビデオ理解タスクおよび精細ビデオ理解タスクにおいて,最先端のVid-LLMよりも有意に優れていた。
論文参考訳（メタデータ） (2025-06-22T02:16:18Z)
Mission Balance: Generating Under-represented Class Samples using Video Diffusion Models [1.5678321653327674]
そこで本研究では,2段階のテキストベースで,低表現クラスのための高忠実度手術ビデオを生成する手法を提案する。本手法は,2つの下流タスク(動作認識と術中事象予測)で評価する。
論文参考訳（メタデータ） (2025-05-14T23:43:29Z)
Enhancing Surgical Documentation through Multimodal Visual-Temporal Transformers and Generative AI [15.513949299806582]
外科的ビデオの自動要約は, 手続き的文書の充実, 外科的訓練の支援, 術後分析の促進に不可欠である。本稿では,コンピュータビジョンと大規模言語モデルの最近の進歩を活用して,包括的な映像要約を生成するマルチモーダルフレームワークを提案する。また,50個の腹腔鏡画像からの計測とアクションアノテーションを用いて,ColecT50データセットを用いて本手法の評価を行った。
論文参考訳（メタデータ） (2025-04-28T15:46:02Z)
Towards Suturing World Models: Learning Predictive Models for Robotic Surgical Tasks [0.35087986342428684]
微小なロボットサブスティッチ動作のダイナミクスを捉える拡散型時間モデルを導入する。我々は2つの最先端ビデオ拡散モデルを微調整し、50ドルLox解像度と49ドルフレームの高忠実度手術アクションシーケンスを生成する。実験の結果, これらの世界モデルは縫合のダイナミクスを効果的に捉え, トレーニング, スキルアセスメントツール, 自律型手術システムなどを改善することができることがわかった。
論文参考訳（メタデータ） (2025-03-16T14:51:12Z)
EndoChat: Grounded Multimodal Large Language Model for Endoscopic Surgery [52.992415247012296]
手術シーン理解における対話のパラダイムやサブタスクに対処するために,EndoChatを導入する。本モデルは,5つの対話パラダイムと8つの手術シーン理解タスクにまたがって,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-01-20T09:12:06Z)
VISAGE: Video Synthesis using Action Graphs for Surgery [34.21344214645662]
腹腔鏡下手術における映像生成の新しい課題について紹介する。提案手法であるVISAGEは,アクションシーングラフのパワーを利用して,腹腔鏡下手術のシーケンシャルな特徴を捉える。腹腔鏡下手術における高忠実度ビデオ生成について検討した。
論文参考訳（メタデータ） (2024-10-23T10:28:17Z)
Surgical-LLaVA: Toward Surgical Scenario Understanding via Large Language and Vision Models [1.4042211166197214]
手術シナリオに特化して設計されたLVLMについて紹介する。 LVLMモデルであるオペレーショナル・ラヴァを手術シナリオのデータに基づいて微調整した。外科的ララバは、外科的文脈において、印象的なマルチモーダルチャット能力を示すことを示す実験である。
論文参考訳（メタデータ） (2024-10-13T07:12:35Z)
Bora: Biomedical Generalist Video Generation Model [20.572771714879856]
本稿では,テキスト誘導型バイオメディカルビデオ生成のための最初のモデルであるBoraを紹介する。新たに確立された医用ビデオコーパスを用いて、モデルアライメントとインストラクションチューニングによって微調整を行う。 Boraは、4つの異なるバイオメディカルドメインにわたる高品質なビデオデータを生成することができる。
論文参考訳（メタデータ） (2024-07-12T03:00:25Z)
Interactive Generation of Laparoscopic Videos with Diffusion Models [1.5488613349551188]
そこで本研究では,外科的動作をテキストで指定することで,現実的な腹腔鏡画像と映像を生成する方法について述べる。我々は、Colecデータセットファミリを使用して、我々のアプローチの性能を実証する。我々は38.097のFIDと0.71のF1スコアを達成する。
論文参考訳（メタデータ） (2024-04-23T12:36:07Z)
Endora: Video Generation Models as Endoscopy Simulators [53.72175969751398]
本稿では,臨床内視鏡シーンをシミュレートする医用ビデオを作成するための革新的な手法であるモデルを紹介する。また、ビデオ生成モデルを用いた内視鏡シミュレーションのための最初の公開ベンチマークを開拓した。 Endoraは、臨床内視鏡研究のための生成AIの展開において、注目すべきブレークスルーとなる。
論文参考訳（メタデータ） (2024-03-17T00:51:59Z)
RenAIssance: A Survey into AI Text-to-Image Generation in the Era of Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文参考訳（メタデータ） (2023-09-02T03:27:20Z)
Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [51.78027546947034]
外科的コンピュータビジョンの最近の進歩は、言語意味論に欠ける視覚のみのモデルによって推進されている。本稿では,eラーニングプラットフォームからの手術ビデオ講義を活用し,効果的な視覚情報と言語監督信号を提供する。テキスト書き起こしのための複数自動音声認識システムを用いて,手術固有の言語課題に対処する。
論文参考訳（メタデータ） (2023-07-27T22:38:12Z)
XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文参考訳（メタデータ） (2023-06-13T17:59:59Z)
Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文参考訳（メタデータ） (2022-10-05T14:41:38Z)
Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文参考訳（メタデータ） (2020-11-03T11:00:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。