Fugu-MT 論文翻訳(概要): Surgical Text-to-Image Generation

論文の概要: Surgical Text-to-Image Generation

arxiv url: http://arxiv.org/abs/2407.09230v1
Date: Fri, 12 Jul 2024 12:49:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-15 23:38:05.364726
Title: Surgical Text-to-Image Generation
Title（参考訳）: 外科的テキスト・画像生成
Authors: Chinedu Innocent Nwoye, Rupak Bose, Kareem Elgohary, Lorenzo Arboit, Giorgio Carlino, Joël L. Lavanchy, Pietro Mascagni, Nicolas Padoy,
Abstract要約: 手術領域に対するテキスト・ツー・イメージ生成モデルの適用について,詳細な解析を行った。様々な言語モデルについて検討し,T5は三重項に基づくテキスト入力に基づく手術動作の識別に,より明確な特徴を提供する。我々は,3重項に基づくテキストプロンプトから,フォトリアリスティックかつ活動対応の手術画像を生成する手術画像nを開発した。
参考スコア（独自算出の注目度）: 1.958913666074613
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Acquiring surgical data for research and development is significantly hindered by high annotation costs and practical and ethical constraints. Utilizing synthetically generated images could offer a valuable alternative. In this work, we conduct an in-depth analysis on adapting text-to-image generative models for the surgical domain, leveraging the CholecT50 dataset, which provides surgical images annotated with surgical action triplets (instrument, verb, target). We investigate various language models and find T5 to offer more distinct features for differentiating surgical actions based on triplet-based textual inputs. Our analysis demonstrates strong alignment between long and triplet-based captions, supporting the use of triplet-based labels. We address the challenges in training text-to-image models on triplet-based captions without additional input signals by uncovering that triplet text embeddings are instrument-centric in the latent space and then, by designing an instrument-based class balancing technique to counteract the imbalance and skewness in the surgical data, improving training convergence. Extending Imagen, a diffusion-based generative model, we develop Surgical Imagen to generate photorealistic and activity-aligned surgical images from triplet-based textual prompts. We evaluate our model using diverse metrics, including human expert surveys and automated methods like FID and CLIP scores. We assess the model performance on key aspects: quality, alignment, reasoning, knowledge, and robustness, demonstrating the effectiveness of our approach in providing a realistic alternative to real data collection.
Abstract（参考訳）: 研究開発のための外科的データを取得することは、高いアノテーションコストと実践的および倫理的制約によって著しく妨げられている。合成画像を利用することは、価値ある代替手段となるかもしれない。本研究は,ColecT50データセットを用いて,手術領域におけるテキスト・ツー・イメージ生成モデルの適用について詳細な解析を行い,手術行動トリガ(インストラメント,動詞,ターゲット)を付加した手術画像を提供する。様々な言語モデルについて検討し,T5は三重項に基づくテキスト入力に基づく手術動作の識別に,より明確な特徴を提供する。分析の結果,三重奏法と三重奏法を併用し,三重奏法と三重奏法を併用した。本稿では,3重テキスト埋め込みが潜時空間において楽器中心であることを明らかにすることで,付加的な入力信号を持たない3重テキストキャプション上でのテキスト・ツー・イメージモデルの訓練課題に対処する。拡散型画像生成モデルであるRetensing Imagenを用いて,三重項ベースのテキストプロンプトからフォトリアリスティックかつ活動対応の手術画像を生成する。 FIDやCLIPスコアなど,人間の専門家による調査や自動化手法など,さまざまな指標を用いたモデルの評価を行った。我々は、品質、アライメント、推論、知識、堅牢性といった重要な側面でモデルパフォーマンスを評価し、実際のデータ収集の現実的な代替手段を提供する上で、我々のアプローチの有効性を実証する。

関連論文リスト

Text-to-CT Generation via 3D Latent Diffusion Model with Contrastive Vision-Language Pretraining [0.8714814768600079]
本稿では,3次元コントラッシブな視覚-言語事前学習方式と潜在拡散モデルを組み合わせたテキスト-CT生成のための新しいアーキテクチャを提案する。本手法は,テキストから臨床的に有意なCTボリュームを合成するための,スケーラブルで制御可能なソリューションを提供する。
論文参考訳（メタデータ） (2025-05-31T16:41:55Z)
Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文参考訳（メタデータ） (2024-09-13T10:19:10Z)
SurgicaL-CD: Generating Surgical Images via Unpaired Image Translation with Latent Consistency Diffusion Models [1.6189876649941652]
現実的な手術画像を生成するために, 連続拡散法であるemphSurgicaL-CDを導入する。以上の結果から,本手法はGANや拡散に基づく手法よりも優れていることが示された。
論文参考訳（メタデータ） (2024-08-19T09:19:25Z)
Realistic Surgical Image Dataset Generation Based On 3D Gaussian Splatting [3.5351922399745166]
本研究は, 合成外科用データセットを生成するために3次元ガウススプラッティングを用いた新しい手法を提案する。手術現場でツールやカメラのポーズとともに画像を取得することのできるデータ記録システムを開発した。このポーズデータを用いて、シーンを合成的に再現し、合成画像の品質を直接比較できるようにする。
論文参考訳（メタデータ） (2024-07-20T11:20:07Z)
Surgical Triplet Recognition via Diffusion Model [59.50938852117371]
外科的三重項認識は、次世代のコンテキスト対応手術室を実現するために必要不可欠なビルディングブロックである。拡散モデルを用いた外科的三重項認識のための新しい生成フレームワークであるDifftを提案する。 CholecT45とColecT50データセットの実験は、手術用三重項認識のための新しい最先端性能を達成する上で、提案手法の優位性を示している。
論文参考訳（メタデータ） (2024-06-19T04:43:41Z)
Navigating the Synthetic Realm: Harnessing Diffusion-based Models for Laparoscopic Text-to-Image Generation [3.2039076408339353]
拡散型生成モデルを用いて短いテキストプロンプトから合成腹腔鏡画像を生成するための直感的なアプローチを提案する。画像ガイド下手術の分野では,拡散モデルがスタイルやセマンティクスの知識を得ることができた。
論文参考訳（メタデータ） (2023-12-05T16:20:22Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)
Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文参考訳（メタデータ） (2023-01-11T16:35:33Z)
Rethinking Surgical Instrument Segmentation: A Background Image Can Be All You Need [18.830738606514736]
データ不足と不均衡はモデルの精度に大きな影響を与え、ディープラーニングベースの手術アプリケーションの設計と展開を制限してきた。本稿では,ロボット手術によるデータ収集とアノテーションの複雑で高価なプロセスを排除する,1対多のデータ生成ソリューションを提案する。経験的分析から,高コストなデータ収集とアノテーションがなければ,適切な手術器具のセグメンテーション性能が達成できることが示唆された。
論文参考訳（メタデータ） (2022-06-23T16:22:56Z)
Improving Generation and Evaluation of Visual Stories via Semantic Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文参考訳（メタデータ） (2021-05-20T20:42:42Z)
Towards Unsupervised Learning for Instrument Segmentation in Robotic Surgery with Cycle-Consistent Adversarial Networks [54.00217496410142]
本稿では、入力された内視鏡画像と対応するアノテーションとのマッピングを学習することを目的として、未ペア画像から画像への変換を提案する。当社のアプローチでは,高価なアノテーションを取得することなく,イメージセグメンテーションモデルをトレーニングすることが可能です。提案手法をEndovis 2017チャレンジデータセットで検証し,教師付きセグメンテーション手法と競合することを示す。
論文参考訳（メタデータ） (2020-07-09T01:39:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。