論文の概要: Pay Attention: Accuracy Versus Interpretability Trade-off in Fine-tuned
Diffusion Models
- arxiv url: http://arxiv.org/abs/2303.17908v1
- Date: Fri, 31 Mar 2023 09:11:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 14:42:09.044153
- Title: Pay Attention: Accuracy Versus Interpretability Trade-off in Fine-tuned
Diffusion Models
- Title(参考訳): 支払い注意:微調整拡散モデルにおける精度検証可能性トレードオフ
- Authors: Mischa Dombrowski, Hadrien Reynaud, Johanna P. M\"uller, Matthew
Baugh, Bernhard Kainz
- Abstract要約: 学習可能なテキストエンコーダを用いた微調整テキスト・ツー・イメージモデルが拡散モデルの解釈可能性の欠如につながることを示す。
本研究では,言語エンコーダの凍結を保ち,拡散モデルが最先端語句のグラウンド化性能を達成できることを示すことで,拡散モデルの解釈可能性を示す。
- 参考スコア(独自算出の注目度): 2.684191974787827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent progress of diffusion models in terms of image quality has led to
a major shift in research related to generative models. Current approaches
often fine-tune pre-trained foundation models using domain-specific
text-to-image pairs. This approach is straightforward for X-ray image
generation due to the high availability of radiology reports linked to specific
images. However, current approaches hardly ever look at attention layers to
verify whether the models understand what they are generating. In this paper,
we discover an important trade-off between image fidelity and interpretability
in generative diffusion models. In particular, we show that fine-tuning
text-to-image models with learnable text encoder leads to a lack of
interpretability of diffusion models. Finally, we demonstrate the
interpretability of diffusion models by showing that keeping the language
encoder frozen, enables diffusion models to achieve state-of-the-art phrase
grounding performance on certain diseases for a challenging multi-label
segmentation task, without any additional training. Code and models will be
available at https://github.com/MischaD/chest-distillation.
- Abstract(参考訳): 画像品質の観点からの拡散モデルの最近の進歩は、生成モデルに関する研究に大きな変化をもたらした。
現在のアプローチはしばしばドメイン固有のテキストと画像のペアを使って、訓練済みの基礎モデルを微調整する。
このアプローチは、特定の画像に関連付けられた放射線レポートが高可用性であることから、x線画像生成にとって簡単である。
しかし、現在のアプローチでは、モデルが生成しているものを理解するかどうかを検証するために注意層を見ることはほとんどない。
本稿では,生成拡散モデルにおける画像忠実性と解釈可能性との間に重要なトレードオフを見いだす。
特に,学習可能なテキストエンコーダを用いた微調整テキスト・画像モデルでは,拡散モデルの解釈性が欠如していることを示す。
最後に, 言語エンコーダの凍結を保ち, 拡散モデルにより, 特定の疾患に根ざした最新語句の表現性能を達成し, 追加の訓練を行わずに, 拡散モデルの解釈可能性を示す。
コードとモデルはhttps://github.com/mischad/chest-distillationで入手できる。
関連論文リスト
- HistoSPACE: Histology-Inspired Spatial Transcriptome Prediction And Characterization Engine [0.0]
HistoSPACEモデルは、STデータで利用可能な組織像の多様性を調べ、組織像から分子的洞察を抽出する。
モデルは、現代のアルゴリズムと比較して大きな効率性を示し、残余のクロスバリデーションにおいて0.56の相関関係を示す。
論文 参考訳(メタデータ) (2024-08-07T07:12:52Z) - Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement [58.9768112704998]
遠方表現学習は、観測データ内の本質的要因を抽出する試みである。
我々は新しい視点と枠組みを導入し、クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す。
これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
論文 参考訳(メタデータ) (2024-02-15T05:07:54Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - On the Out of Distribution Robustness of Foundation Models in Medical
Image Segmentation [47.95611203419802]
視覚と言語の基礎は、様々な自然画像とテキストデータに基づいて事前訓練されており、有望なアプローチとして現れている。
一般化性能を,同じ分布データセット上で微調整した後,事前学習した各種モデルの未確認領域と比較した。
さらに,凍結モデルに対する新しいベイズ不確実性推定法を開発し,分布外データに基づくモデルの性能評価指標として利用した。
論文 参考訳(メタデータ) (2023-11-18T14:52:10Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - RoentGen: Vision-Language Foundation Model for Chest X-ray Generation [7.618389245539657]
我々は,胸部X線のコーパスに事前学習した潜伏拡散モデルを適用することで,大きな自然医学的分布変化を克服する戦略を開発する。
テキストプロンプトに条件付された高忠実で多様な合成CXRを生成するモデルの能力について検討する。
得られたモデル(RoentGen)が視覚的に説得力があり多様な合成CXR画像を生成することができることを示す。
論文 参考訳(メタデータ) (2022-11-23T06:58:09Z) - Adapting Pretrained Vision-Language Foundational Models to Medical
Imaging Domains [3.8137985834223502]
臨床の文脈を忠実に描写する医療画像の生成モデルを構築することは、医療データセットの不明瞭さを軽減するのに役立つ。
安定拡散パイプラインのサブコンポーネントを探索し、モデルを微調整して医用画像を生成する。
我々の最良の性能モデルは、安定な拡散ベースラインを改善し、合成ラジオグラフィ画像に現実的な異常を挿入するように条件付けすることができる。
論文 参考訳(メタデータ) (2022-10-09T01:43:08Z) - Fast Unsupervised Brain Anomaly Detection and Segmentation with
Diffusion Models [1.6352599467675781]
脳画像における異常検出とセグメント分割のための拡散モデルに基づく手法を提案する。
拡散モデルは,2次元CTおよびMRIデータを用いた一連の実験において,自己回帰的アプローチと比較して競争性能が向上する。
論文 参考訳(メタデータ) (2022-06-07T17:30:43Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。