論文の概要: Towards Application Aligned Synthetic Surgical Image Synthesis
- arxiv url: http://arxiv.org/abs/2509.18796v1
- Date: Tue, 23 Sep 2025 08:40:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.777181
- Title: Towards Application Aligned Synthetic Surgical Image Synthesis
- Title(参考訳): 外科的画像合成の応用に向けて
- Authors: Danush Kumar Venkatesh, Stefanie Speidel,
- Abstract要約: 下流モデルで好まれるサンプルと拡散モデルを整合させる新しいフレームワークであるemphSurgical Application-Aligned Diffusion (SAADi)を紹介する。
提案手法では, 画像生成過程を下流の目的と明確に整合させるために, 拡散モデルの微調整を軽量に行う。
- 参考スコア(独自算出の注目度): 3.1373284090264857
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The scarcity of annotated surgical data poses a significant challenge for developing deep learning systems in computer-assisted interventions. While diffusion models can synthesize realistic images, they often suffer from data memorization, resulting in inconsistent or non-diverse samples that may fail to improve, or even harm, downstream performance. We introduce \emph{Surgical Application-Aligned Diffusion} (SAADi), a new framework that aligns diffusion models with samples preferred by downstream models. Our method constructs pairs of \emph{preferred} and \emph{non-preferred} synthetic images and employs lightweight fine-tuning of diffusion models to align the image generation process with downstream objectives explicitly. Experiments on three surgical datasets demonstrate consistent gains of $7$--$9\%$ in classification and $2$--$10\%$ in segmentation tasks, with the considerable improvements observed for underrepresented classes. Iterative refinement of synthetic samples further boosts performance by $4$--$10\%$. Unlike baseline approaches, our method overcomes sample degradation and establishes task-aware alignment as a key principle for mitigating data scarcity and advancing surgical vision applications.
- Abstract(参考訳): 注釈付き手術データの不足は、コンピュータによる介入におけるディープラーニングシステムの開発に重大な課題をもたらす。
拡散モデルは現実的なイメージを合成できるが、しばしばデータの記憶に悩まされ、不整合または非多彩なサンプルが下流のパフォーマンスを改善または害する可能性がある。
下流モデルで好まれるサンプルと拡散モデルを整合させる新しいフレームワークである 'emph{Surgical Application-Aligned Diffusion} (SAADi) を紹介する。
提案手法は, 合成画像の組と合成画像の組を構築し, 拡散モデルの軽量微調整を用いて, 画像生成過程を下流の目的と明確に整合させる。
3つの外科的データセットの実験では、分類において7--9-%$とセグメンテーションタスクにおいて2-10-%$が一貫した利得を示し、表現不足のクラスではかなりの改善が見られた。
合成試料の反復精製により、さらに4ドル〜10ドル%の性能が向上する。
ベースラインアプローチとは異なり,本手法はサンプル劣化を克服し,データ不足を軽減し,手術用視覚応用を推進するための重要な原則としてタスク認識アライメントを確立する。
関連論文リスト
- Mission Balance: Generating Under-represented Class Samples using Video Diffusion Models [1.5678321653327674]
そこで本研究では,2段階のテキストベースで,低表現クラスのための高忠実度手術ビデオを生成する手法を提案する。
本手法は,2つの下流タスク(動作認識と術中事象予測)で評価する。
論文 参考訳(メタデータ) (2025-05-14T23:43:29Z) - Efficient Semantic Diffusion Architectures for Model Training on Synthetic Echocardiograms [0.9765507069335528]
本稿では, セマンティックガイド付き人工心臓超音波画像を生成するために, LDM(Gamma$-distriion Latent Denoising Diffusion Models)を提案する。
また、左室区分けと2値心エコー図の分類タスクのための訓練深部ネットワークにおける実際のデータの代わりにこれらの合成画像を使用することの可能性についても検討した。
論文 参考訳(メタデータ) (2024-09-28T14:50:50Z) - SurgicaL-CD: Generating Surgical Images via Unpaired Image Translation with Latent Consistency Diffusion Models [1.6189876649941652]
現実的な手術画像を生成するために, 連続拡散法であるemphSurgicaL-CDを導入する。
以上の結果から,本手法はGANや拡散に基づく手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-08-19T09:19:25Z) - Training Class-Imbalanced Diffusion Model Via Overlap Optimization [55.96820607533968]
実世界のデータセットで訓練された拡散モデルは、尾クラスの忠実度が劣ることが多い。
拡散モデルを含む深い生成モデルは、豊富な訓練画像を持つクラスに偏りがある。
本研究では,異なるクラスに対する合成画像の分布の重複を最小限に抑えるために,コントラスト学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-02-16T16:47:21Z) - Synthesising Rare Cataract Surgery Samples with Guided Diffusion Models [0.7577401420358975]
白内障手術の動画データを,訓練済みのツールの最悪のパフォーマンスの段階で分析する。
本モデルは,複雑なマルチクラスマルチラベル条件に基づいて,多種多様な高品質なサンプルを合成することができる。
人工的に拡張されたデータにより,ツール分類の下流タスクにおけるデータ空間の問題を改善することができる。
論文 参考訳(メタデータ) (2023-08-03T18:09:26Z) - ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。
提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文 参考訳(メタデータ) (2023-07-15T04:48:35Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。