論文の概要: Trade-offs in Fine-tuned Diffusion Models Between Accuracy and
Interpretability
- arxiv url: http://arxiv.org/abs/2303.17908v2
- Date: Tue, 19 Dec 2023 19:12:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 22:08:39.488935
- Title: Trade-offs in Fine-tuned Diffusion Models Between Accuracy and
Interpretability
- Title(参考訳): 微調整拡散モデルにおける精度と解釈可能性のトレードオフ
- Authors: Mischa Dombrowski, Hadrien Reynaud, Johanna P. M\"uller, Matthew
Baugh, Bernhard Kainz
- Abstract要約: 生成拡散モデルにおける従来の計測値とモデル解釈可能性による画像の忠実度との間に連続的なトレードオフが生じる。
我々は、真に解釈可能な生成モデルを開発するための設計原則のセットを提示する。
- 参考スコア(独自算出の注目度): 5.865936619867771
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in diffusion models have significantly impacted the
trajectory of generative machine learning research, with many adopting the
strategy of fine-tuning pre-trained models using domain-specific text-to-image
datasets. Notably, this method has been readily employed for medical
applications, such as X-ray image synthesis, leveraging the plethora of
associated radiology reports. Yet, a prevailing concern is the lack of
assurance on whether these models genuinely comprehend their generated content.
With the evolution of text-conditional image generation, these models have
grown potent enough to facilitate object localization scrutiny. Our research
underscores this advancement in the critical realm of medical imaging,
emphasizing the crucial role of interpretability. We further unravel a
consequential trade-off between image fidelity as gauged by conventional
metrics and model interpretability in generative diffusion models.
Specifically, the adoption of learnable text encoders when fine-tuning results
in diminished interpretability. Our in-depth exploration uncovers the
underlying factors responsible for this divergence. Consequently, we present a
set of design principles for the development of truly interpretable generative
models. Code is available at https://github.com/MischaD/chest-distillation.
- Abstract(参考訳): 近年の拡散モデルの発展は、生成的機械学習研究の軌道に大きな影響を与えており、多くの人は、ドメイン固有のテキストから画像へのデータセットを用いた事前学習モデルの微調整戦略を採用している。
特に、この方法はx線画像合成などの医療用途に利用され、関連する放射線学的報告の多用を生かしている。
しかし、一般的な懸念は、これらのモデルが生成したコンテンツを真に理解しているかどうかの保証の欠如である。
テキスト条件画像生成の進化に伴い、これらのモデルはオブジェクトの局所化の精査を容易にするほど強力に成長している。
我々の研究は、医療画像の重要な領域におけるこの進歩を強調し、解釈可能性の重要な役割を強調している。
さらに,生成拡散モデルにおける画像忠実度とモデル解釈可能性との連続的なトレードオフを明らかにする。
具体的には、微調整時に学習可能なテキストエンコーダが採用されると、解釈性が低下する。
我々の深層探査は、この分岐の原因となる要因を明らかにする。
そこで本研究では,真に解釈可能な生成モデルを開発するための設計原則について述べる。
コードはhttps://github.com/MischaD/chest-distillationで入手できる。
関連論文リスト
- HistoSPACE: Histology-Inspired Spatial Transcriptome Prediction And Characterization Engine [0.0]
HistoSPACEモデルは、STデータで利用可能な組織像の多様性を調べ、組織像から分子的洞察を抽出する。
モデルは、現代のアルゴリズムと比較して大きな効率性を示し、残余のクロスバリデーションにおいて0.56の相関関係を示す。
論文 参考訳(メタデータ) (2024-08-07T07:12:52Z) - Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement [58.9768112704998]
遠方表現学習は、観測データ内の本質的要因を抽出する試みである。
我々は新しい視点と枠組みを導入し、クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す。
これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
論文 参考訳(メタデータ) (2024-02-15T05:07:54Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - On the Out of Distribution Robustness of Foundation Models in Medical
Image Segmentation [47.95611203419802]
視覚と言語の基礎は、様々な自然画像とテキストデータに基づいて事前訓練されており、有望なアプローチとして現れている。
一般化性能を,同じ分布データセット上で微調整した後,事前学習した各種モデルの未確認領域と比較した。
さらに,凍結モデルに対する新しいベイズ不確実性推定法を開発し,分布外データに基づくモデルの性能評価指標として利用した。
論文 参考訳(メタデータ) (2023-11-18T14:52:10Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - RoentGen: Vision-Language Foundation Model for Chest X-ray Generation [7.618389245539657]
我々は,胸部X線のコーパスに事前学習した潜伏拡散モデルを適用することで,大きな自然医学的分布変化を克服する戦略を開発する。
テキストプロンプトに条件付された高忠実で多様な合成CXRを生成するモデルの能力について検討する。
得られたモデル(RoentGen)が視覚的に説得力があり多様な合成CXR画像を生成することができることを示す。
論文 参考訳(メタデータ) (2022-11-23T06:58:09Z) - Adapting Pretrained Vision-Language Foundational Models to Medical
Imaging Domains [3.8137985834223502]
臨床の文脈を忠実に描写する医療画像の生成モデルを構築することは、医療データセットの不明瞭さを軽減するのに役立つ。
安定拡散パイプラインのサブコンポーネントを探索し、モデルを微調整して医用画像を生成する。
我々の最良の性能モデルは、安定な拡散ベースラインを改善し、合成ラジオグラフィ画像に現実的な異常を挿入するように条件付けすることができる。
論文 参考訳(メタデータ) (2022-10-09T01:43:08Z) - Fast Unsupervised Brain Anomaly Detection and Segmentation with
Diffusion Models [1.6352599467675781]
脳画像における異常検出とセグメント分割のための拡散モデルに基づく手法を提案する。
拡散モデルは,2次元CTおよびMRIデータを用いた一連の実験において,自己回帰的アプローチと比較して競争性能が向上する。
論文 参考訳(メタデータ) (2022-06-07T17:30:43Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。