論文の概要: Surgical Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2407.09230v2
- Date: Tue, 30 Jul 2024 16:40:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 21:23:40.286306
- Title: Surgical Text-to-Image Generation
- Title(参考訳): 外科的テキスト・画像生成
- Authors: Chinedu Innocent Nwoye, Rupak Bose, Kareem Elgohary, Lorenzo Arboit, Giorgio Carlino, Joël L. Lavanchy, Pietro Mascagni, Nicolas Padoy,
- Abstract要約: We adapt text-to-image generative model for the surgery domain using the CholecT50 dataset。
我々は,3重項に基づくテキストプロンプトから,フォトリアリスティックかつ活動対応の手術画像を生成する手術画像nを開発した。
- 参考スコア(独自算出の注目度): 1.958913666074613
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Acquiring surgical data for research and development is significantly hindered by high annotation costs and practical and ethical constraints. Utilizing synthetically generated images could offer a valuable alternative. In this work, we explore adapting text-to-image generative models for the surgical domain using the CholecT50 dataset, which provides surgical images annotated with action triplets (instrument, verb, target). We investigate several language models and find T5 to offer more distinct features for differentiating surgical actions on triplet-based textual inputs, and showcasing stronger alignment between long and triplet-based captions. To address challenges in training text-to-image models solely on triplet-based captions without additional inputs and supervisory signals, we discover that triplet text embeddings are instrument-centric in the latent space. Leveraging this insight, we design an instrument-based class balancing technique to counteract data imbalance and skewness, improving training convergence. Extending Imagen, a diffusion-based generative model, we develop Surgical Imagen to generate photorealistic and activity-aligned surgical images from triplet-based textual prompts. We assess the model on quality, alignment, reasoning, and knowledge, achieving FID and CLIP scores of 3.7 and 26.8% respectively. Human expert survey shows that participants were highly challenged by the realistic characteristics of the generated samples, demonstrating Surgical Imagen's effectiveness as a practical alternative to real data collection.
- Abstract(参考訳): 研究開発のための外科的データを取得することは、高いアノテーションコストと実践的および倫理的制約によって著しく妨げられている。
合成画像を利用することは、価値ある代替手段となるかもしれない。
本研究では,ColecT50データセットを用いて,手術領域のテキスト・ツー・イメージ生成モデルを適用し,アクション・トリプレットを付加した手術画像(インストラクト,動詞,ターゲット)を提供する。
いくつかの言語モデルを調べ,T5は三重項に基づくテキスト入力に対する外科的動作を識別し,長い字幕と三重項による字幕のより強いアライメントを示す。
付加的な入力やスーパーバイザ信号を伴わずに三重項ベースのキャプションのみを用いたテキスト・ツー・イメージ・モデルを訓練する際の課題に対処するため,三重項の埋め込みは潜時空間において楽器中心であることが判明した。
この知見を活用することで、データの不均衡と歪を防止し、トレーニング収束を改善するための計器ベースのクラスバランス手法を設計する。
拡散型画像生成モデルであるRetensing Imagenを用いて,三重項ベースのテキストプロンプトからフォトリアリスティックかつ活動対応の手術画像を生成する。
FIDとCLIPのスコアはそれぞれ3.7と26.8%である。
人間の専門家による調査によると、被験者は生成したサンプルの現実的な特性に非常に疑問を呈し、実際のデータ収集の代替手段としての手術的イメージンの有効性を実証した。
関連論文リスト
- Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。
我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文 参考訳(メタデータ) (2024-09-13T10:19:10Z) - SurgicaL-CD: Generating Surgical Images via Unpaired Image Translation with Latent Consistency Diffusion Models [1.6189876649941652]
現実的な手術画像を生成するために, 連続拡散法であるemphSurgicaL-CDを導入する。
以上の結果から,本手法はGANや拡散に基づく手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-08-19T09:19:25Z) - Realistic Surgical Image Dataset Generation Based On 3D Gaussian Splatting [3.5351922399745166]
本研究は, 合成外科用データセットを生成するために3次元ガウススプラッティングを用いた新しい手法を提案する。
手術現場でツールやカメラのポーズとともに画像を取得することのできるデータ記録システムを開発した。
このポーズデータを用いて、シーンを合成的に再現し、合成画像の品質を直接比較できるようにする。
論文 参考訳(メタデータ) (2024-07-20T11:20:07Z) - Surgical Triplet Recognition via Diffusion Model [59.50938852117371]
外科的三重項認識は、次世代のコンテキスト対応手術室を実現するために必要不可欠なビルディングブロックである。
拡散モデルを用いた外科的三重項認識のための新しい生成フレームワークであるDifftを提案する。
CholecT45とColecT50データセットの実験は、手術用三重項認識のための新しい最先端性能を達成する上で、提案手法の優位性を示している。
論文 参考訳(メタデータ) (2024-06-19T04:43:41Z) - Navigating the Synthetic Realm: Harnessing Diffusion-based Models for
Laparoscopic Text-to-Image Generation [3.2039076408339353]
拡散型生成モデルを用いて短いテキストプロンプトから合成腹腔鏡画像を生成するための直感的なアプローチを提案する。
画像ガイド下手術の分野では,拡散モデルがスタイルやセマンティクスの知識を得ることができた。
論文 参考訳(メタデータ) (2023-12-05T16:20:22Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Rethinking Surgical Instrument Segmentation: A Background Image Can Be
All You Need [18.830738606514736]
データ不足と不均衡はモデルの精度に大きな影響を与え、ディープラーニングベースの手術アプリケーションの設計と展開を制限してきた。
本稿では,ロボット手術によるデータ収集とアノテーションの複雑で高価なプロセスを排除する,1対多のデータ生成ソリューションを提案する。
経験的分析から,高コストなデータ収集とアノテーションがなければ,適切な手術器具のセグメンテーション性能が達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-23T16:22:56Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Towards Unsupervised Learning for Instrument Segmentation in Robotic
Surgery with Cycle-Consistent Adversarial Networks [54.00217496410142]
本稿では、入力された内視鏡画像と対応するアノテーションとのマッピングを学習することを目的として、未ペア画像から画像への変換を提案する。
当社のアプローチでは,高価なアノテーションを取得することなく,イメージセグメンテーションモデルをトレーニングすることが可能です。
提案手法をEndovis 2017チャレンジデータセットで検証し,教師付きセグメンテーション手法と競合することを示す。
論文 参考訳(メタデータ) (2020-07-09T01:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。