論文の概要: Generalized Task-Driven Medical Image Quality Enhancement with Gradient Promotion
- arxiv url: http://arxiv.org/abs/2501.01114v1
- Date: Thu, 02 Jan 2025 07:21:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:13:48.588087
- Title: Generalized Task-Driven Medical Image Quality Enhancement with Gradient Promotion
- Title(参考訳): グラディエント・プロモーションによる汎用タスク駆動型医用画像品質向上
- Authors: Dong Zhang, Kwang-Ting Cheng,
- Abstract要約: 既存のタスク駆動IQEモデルでは、さまざまなレベルの視覚タスクが、画像特徴の要求に相反することがあるという、根本的な事実を見落としてしまう傾向があります。
本稿では,医療画像のタスク駆動IQEのための一般化勾配促進(GradProm)トレーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 33.03871451803645
- License:
- Abstract: Thanks to the recent achievements in task-driven image quality enhancement (IQE) models like ESTR, the image enhancement model and the visual recognition model can mutually enhance each other's quantitation while producing high-quality processed images that are perceivable by our human vision systems. However, existing task-driven IQE models tend to overlook an underlying fact -- different levels of vision tasks have varying and sometimes conflicting requirements of image features. To address this problem, this paper proposes a generalized gradient promotion (GradProm) training strategy for task-driven IQE of medical images. Specifically, we partition a task-driven IQE system into two sub-models, i.e., a mainstream model for image enhancement and an auxiliary model for visual recognition. During training, GradProm updates only parameters of the image enhancement model using gradients of the visual recognition model and the image enhancement model, but only when gradients of these two sub-models are aligned in the same direction, which is measured by their cosine similarity. In case gradients of these two sub-models are not in the same direction, GradProm only uses the gradient of the image enhancement model to update its parameters. Theoretically, we have proved that the optimization direction of the image enhancement model will not be biased by the auxiliary visual recognition model under the implementation of GradProm. Empirically, extensive experimental results on four public yet challenging medical image datasets demonstrated the superior performance of GradProm over existing state-of-the-art methods.
- Abstract(参考訳): ESTRのようなタスク駆動型画像品質向上(IQE)モデルの最近の成果により、画像強調モデルと視覚認識モデルは、人間の視覚システムによって認識される高品質な処理画像を生成しながら、相互に量子化を増強することができる。
しかし、既存のタスク駆動IQEモデルでは、さまざまなレベルの視覚タスクが画像特徴の要求に相反することがあるため、基礎的な事実を見落としてしまう傾向があります。
この問題に対処するために,医療画像のタスク駆動IQEのための一般化勾配促進(GradProm)トレーニング戦略を提案する。
具体的には,タスク駆動型IQEシステムを2つのサブモデル,すなわち画像強調の主流モデルと視覚認識の補助モデルに分割する。
トレーニング中、GradPromは、視覚認識モデルと画像強調モデルの勾配を用いた画像強調モデルのパラメータのみを更新するが、これら2つのサブモデルの勾配が同じ方向に配置されている場合にのみ、コサイン類似性によって測定される。
これら2つのサブモデルの勾配が同じ方向ではない場合、GradPromはパラメータを更新するために画像拡張モデルの勾配のみを使用する。
理論的には、GradPromの実装下では、画像強調モデルの最適化方向が補助的な視覚認識モデルに偏らないことが証明されている。
4つの公開かつ挑戦的な医療画像データセットに対する実験的実験の結果は、既存の最先端の手法よりもGradPromの優れたパフォーマンスを示した。
関連論文リスト
- Fine Tuning Text-to-Image Diffusion Models for Correcting Anomalous Images [0.0]
本研究では,DreamBooth法を用いて安定拡散3モデルを微調整することにより,このような問題を緩和する手法を提案する。
SSIM(Structure similarity Index)、Pak Signal-to-Noise Ratio(PSNR)、Frechet Inception Distance(FID)など、視覚的評価の精度向上を示す。
論文 参考訳(メタデータ) (2024-09-23T00:51:47Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - YaART: Yet Another ART Rendering Technology [119.09155882164573]
そこで本研究では,ヒトの嗜好に適合する新しい生産段階のテキスト・ツー・イメージ拡散モデルYaARTを紹介した。
これらの選択がトレーニングプロセスの効率と生成された画像の品質にどのように影響するかを分析する。
高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを実証する。
論文 参考訳(メタデータ) (2024-04-08T16:51:19Z) - Fiducial Focus Augmentation for Facial Landmark Detection [4.433764381081446]
本稿では,モデルによる顔構造理解を高めるために,新しい画像強調手法を提案する。
我々は,Deep Canonical correlation Analysis (DCCA) に基づく損失を考慮した,シームズアーキテクチャに基づくトレーニング機構を採用している。
提案手法は,様々なベンチマークデータセットにおいて,最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2024-02-23T01:34:00Z) - IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。
我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。
本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-17T17:07:36Z) - High-resolution semantically-consistent image-to-image translation [0.0]
本稿では,スタイル変換フェーズにおける画像のセマンティック一貫性と画素単位の品質を保った教師なし領域適応モデルを提案する。
提案モデルでは,SemI2Iモデルと比較してかなりの性能向上を示し,最先端のCyCADAモデルと同様の結果を得た。
論文 参考訳(メタデータ) (2022-09-13T19:08:30Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。