Fugu-MT 論文翻訳(概要): Pay Attention: Accuracy Versus Interpretability Trade-off in Fine-tuned Diffusion Models

論文の概要: Pay Attention: Accuracy Versus Interpretability Trade-off in Fine-tuned Diffusion Models

arxiv url: http://arxiv.org/abs/2303.17908v1
Date: Fri, 31 Mar 2023 09:11:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-03 14:42:09.044153
Title: Pay Attention: Accuracy Versus Interpretability Trade-off in Fine-tuned Diffusion Models
Title（参考訳）: 支払い注意:微調整拡散モデルにおける精度検証可能性トレードオフ
Authors: Mischa Dombrowski, Hadrien Reynaud, Johanna P. M\"uller, Matthew Baugh, Bernhard Kainz
Abstract要約: 学習可能なテキストエンコーダを用いた微調整テキスト・ツー・イメージモデルが拡散モデルの解釈可能性の欠如につながることを示す。本研究では,言語エンコーダの凍結を保ち,拡散モデルが最先端語句のグラウンド化性能を達成できることを示すことで,拡散モデルの解釈可能性を示す。
参考スコア（独自算出の注目度）: 2.684191974787827
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The recent progress of diffusion models in terms of image quality has led to a major shift in research related to generative models. Current approaches often fine-tune pre-trained foundation models using domain-specific text-to-image pairs. This approach is straightforward for X-ray image generation due to the high availability of radiology reports linked to specific images. However, current approaches hardly ever look at attention layers to verify whether the models understand what they are generating. In this paper, we discover an important trade-off between image fidelity and interpretability in generative diffusion models. In particular, we show that fine-tuning text-to-image models with learnable text encoder leads to a lack of interpretability of diffusion models. Finally, we demonstrate the interpretability of diffusion models by showing that keeping the language encoder frozen, enables diffusion models to achieve state-of-the-art phrase grounding performance on certain diseases for a challenging multi-label segmentation task, without any additional training. Code and models will be available at https://github.com/MischaD/chest-distillation.
Abstract（参考訳）: 画像品質の観点からの拡散モデルの最近の進歩は、生成モデルに関する研究に大きな変化をもたらした。現在のアプローチはしばしばドメイン固有のテキストと画像のペアを使って、訓練済みの基礎モデルを微調整する。このアプローチは、特定の画像に関連付けられた放射線レポートが高可用性であることから、x線画像生成にとって簡単である。しかし、現在のアプローチでは、モデルが生成しているものを理解するかどうかを検証するために注意層を見ることはほとんどない。本稿では,生成拡散モデルにおける画像忠実性と解釈可能性との間に重要なトレードオフを見いだす。特に,学習可能なテキストエンコーダを用いた微調整テキスト・画像モデルでは,拡散モデルの解釈性が欠如していることを示す。最後に, 言語エンコーダの凍結を保ち, 拡散モデルにより, 特定の疾患に根ざした最新語句の表現性能を達成し, 追加の訓練を行わずに, 拡散モデルの解釈可能性を示す。コードとモデルはhttps://github.com/mischad/chest-distillationで入手できる。

関連論文リスト

Anatomy-Grounded Weakly Supervised Prompt Tuning for Chest X-ray Latent Diffusion Models [8.94567513238762]
標準テキスト条件付潜時拡散モデルでは, 対象スキャンの対応する領域と, 臨床上の関連情報が一致しないことが示されている。句接地のような下流のタスクに効率的に再利用できるように,事前訓練されたモデルにおけるマルチモーダルアライメントを改善するための微調整フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-12T12:19:18Z)
Causal Disentanglement for Robust Long-tail Medical Image Generation [80.15257897500578]
そこで本研究では,病的特徴と構造的特徴を独立に生成する新しい医用画像生成フレームワークを提案する。本稿では,病理所見から導かれる拡散モデルを用いて病理像をモデル化し,種々の対物画像の生成を可能にする。
論文参考訳（メタデータ） (2025-04-20T01:54:18Z)
Language-Guided Trajectory Traversal in Disentangled Stable Diffusion Latent Space for Factorized Medical Image Generation [0.8397730500554048]
医用画像データセットに微調整を施した事前学習型視覚言語基礎モデルの能力について, 潜時無拘束化を行うための第1報を提示する。言語誘導の安定拡散は、本質的に画像生成のキー属性を分解することを学ぶことを実証する。生成モデルの潜在空間軌跡を識別し,分離し,操作するための枠組みを考案し,医用画像合成の精密制御を容易にする。
論文参考訳（メタデータ） (2025-03-30T23:15:52Z)
Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。我々は,脳MRIと胸部X線による3つの時系列的ベンチマークデータセットを用いて,対物画像生成法について検討した。
論文参考訳（メタデータ） (2024-12-30T01:59:34Z)
HistoSPACE: Histology-Inspired Spatial Transcriptome Prediction And Characterization Engine [0.0]
HistoSPACEモデルは、STデータで利用可能な組織像の多様性を調べ、組織像から分子的洞察を抽出する。モデルは、現代のアルゴリズムと比較して大きな効率性を示し、残余のクロスバリデーションにおいて0.56の相関関係を示す。
論文参考訳（メタデータ） (2024-08-07T07:12:52Z)
Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement [58.9768112704998]
遠方表現学習は、観測データ内の本質的要因を抽出する試みである。我々は新しい視点と枠組みを導入し、クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す。これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
論文参考訳（メタデータ） (2024-02-15T05:07:54Z)
Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文参考訳（メタデータ） (2023-12-12T14:45:45Z)
On the Out of Distribution Robustness of Foundation Models in Medical Image Segmentation [47.95611203419802]
視覚と言語の基礎は、様々な自然画像とテキストデータに基づいて事前訓練されており、有望なアプローチとして現れている。一般化性能を,同じ分布データセット上で微調整した後,事前学習した各種モデルの未確認領域と比較した。さらに,凍結モデルに対する新しいベイズ不確実性推定法を開発し,分布外データに基づくモデルの性能評価指標として利用した。
論文参考訳（メタデータ） (2023-11-18T14:52:10Z)
Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文参考訳（メタデータ） (2023-09-30T02:03:22Z)
RoentGen: Vision-Language Foundation Model for Chest X-ray Generation [7.618389245539657]
我々は,胸部X線のコーパスに事前学習した潜伏拡散モデルを適用することで,大きな自然医学的分布変化を克服する戦略を開発する。テキストプロンプトに条件付された高忠実で多様な合成CXRを生成するモデルの能力について検討する。得られたモデル(RoentGen)が視覚的に説得力があり多様な合成CXR画像を生成することができることを示す。
論文参考訳（メタデータ） (2022-11-23T06:58:09Z)
Adapting Pretrained Vision-Language Foundational Models to Medical Imaging Domains [3.8137985834223502]
臨床の文脈を忠実に描写する医療画像の生成モデルを構築することは、医療データセットの不明瞭さを軽減するのに役立つ。安定拡散パイプラインのサブコンポーネントを探索し、モデルを微調整して医用画像を生成する。我々の最良の性能モデルは、安定な拡散ベースラインを改善し、合成ラジオグラフィ画像に現実的な異常を挿入するように条件付けすることができる。
論文参考訳（メタデータ） (2022-10-09T01:43:08Z)
Fast Unsupervised Brain Anomaly Detection and Segmentation with Diffusion Models [1.6352599467675781]
脳画像における異常検出とセグメント分割のための拡散モデルに基づく手法を提案する。拡散モデルは,2次元CTおよびMRIデータを用いた一連の実験において,自己回帰的アプローチと比較して競争性能が向上する。
論文参考訳（メタデータ） (2022-06-07T17:30:43Z)
Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。共通情報と相補情報の両方を敵意で抽出することを目的としている。特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文参考訳（メタデータ） (2021-02-15T18:46:44Z)
Proactive Pseudo-Intervention: Causally Informed Contrastive Learning For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。 PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文参考訳（メタデータ） (2020-12-06T20:30:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。