Fugu-MT 論文翻訳(概要): Language Models Meet Anomaly Detection for Better Interpretability and Generalizability

論文の概要: Language Models Meet Anomaly Detection for Better Interpretability and Generalizability

arxiv url: http://arxiv.org/abs/2404.07622v2
Date: Tue, 23 Jul 2024 11:50:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 22:33:53.612415
Title: Language Models Meet Anomaly Detection for Better Interpretability and Generalizability
Title（参考訳）: 可読性と一般化性向上のための異常検出を伴う言語モデル
Authors: Jun Li, Su Hwan Kim, Philip Müller, Lina Felsner, Daniel Rueckert, Benedikt Wiestler, Julia A. Schnabel, Cosmin I. Bercea,
Abstract要約: 本研究では,医療画像における言語モデルと教師なし異常検出の統合について検討する。脳磁気共鳴画像におけるマルチイメージ視覚的質問応答のための新しいデータセットを提案する。本モデルでは, 閉鎖質問に対する60.81%の精度を達成し, 疾患の分類と重症度を15種類のクラスに分けた。
参考スコア（独自算出の注目度）: 13.674931689496225
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This research explores the integration of language models and unsupervised anomaly detection in medical imaging, addressing two key questions: (1) Can language models enhance the interpretability of anomaly detection maps? and (2) Can anomaly maps improve the generalizability of language models in open-set anomaly detection tasks? To investigate these questions, we introduce a new dataset for multi-image visual question-answering on brain magnetic resonance images encompassing multiple conditions. We propose KQ-Former (Knowledge Querying Transformer), which is designed to optimally align visual and textual information in limited-sample contexts. Our model achieves a 60.81% accuracy on closed questions, covering disease classification and severity across 15 different classes. For open questions, KQ-Former demonstrates a 70% improvement over the baseline with a BLEU-4 score of 0.41, and achieves the highest entailment ratios (up to 71.9%) and lowest contradiction ratios (down to 10.0%) among various natural language inference models. Furthermore, integrating anomaly maps results in an 18% accuracy increase in detecting open-set anomalies, thereby enhancing the language model's generalizability to previously unseen medical conditions. The code and dataset are available at https://github.com/compai-lab/miccai-2024-junli?tab=readme-ov-file
Abstract（参考訳）: 本研究は,医療画像における言語モデルと教師なし異常検出の統合について検討し,(1)言語モデルが異常検出マップの解釈可能性を高めることができるか,という2つの重要な疑問に対処するものである。そして、(2)異常マップは、オープンセットの異常検出タスクにおける言語モデルの一般化性を向上させることができるか? そこで本研究では,複数の条件を包含した脳磁気共鳴画像に対するマルチイメージ視覚的質問応答のための新しいデータセットを提案する。 KQ-Former (Knowledge Querying Transformer) を提案する。本モデルでは, 閉鎖質問に対する60.81%の精度を達成し, 疾患の分類と重症度を15種類のクラスに分けた。オープンな質問に対して、KQ-FormerはBLEU-4スコア0.41でベースラインを70%改善し、様々な自然言語推論モデルの中で最も高いエンテーメント比(71.9%まで)と最も低い矛盾率(10.0%まで)を達成した。さらに、異常マップの統合により、オープンセット異常の検出において精度が18%向上し、これまで見られなかった医療条件に対する言語モデルの一般化性が向上する。コードとデータセットはhttps://github.com/compai-lab/miccai-2024-junli? tab=readme-ov-file

関連論文リスト

Large-scale and Fine-grained Vision-language Pre-training for Enhanced CT Image Understanding [17.783231335173486]
解剖学的CT画像解釈のための細粒度視覚言語モデル(fVLM)を提案する。しかし、微粒なアライメントは、かなり偽陰性な課題に直面している。今回,69,086例のCT画像と報告データをもとに,これまでで最大のCTデータセットを収集した。
論文参考訳（メタデータ） (2025-01-24T14:50:48Z)
RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment [10.67889367763112]
RadAlignは、視覚言語モデルの予測精度と大きな言語モデルの推論能力を組み合わせた、新しいフレームワークである。本フレームワークは, 幻覚の低減, 自動医用画像の進歩, 予測AIと生成AIの統合による報告分析を両立させながら, 強力な臨床解釈可能性を維持している。
論文参考訳（メタデータ） (2025-01-13T17:55:32Z)
FADE: Few-shot/zero-shot Anomaly Detection Engine using Large Vision-Language Model [0.9226774742769024]
製造業界における品質検査には,少ないショット・ゼロショット異常検出が重要である。視覚言語CLIPモデルを利用したFew-shot/zero-shot Anomaly Engine Detection (FADE)を提案する。 FADEは、ゼロショットで89.6%(91.5%)、ノーマルショットで95.4%(97.5%)の異常セグメンテーションにおいて、他の最先端の手法よりも優れている。
論文参考訳（メタデータ） (2024-08-31T23:05:56Z)
Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文参考訳（メタデータ） (2024-07-11T16:51:33Z)
Certainly Uncertain: A Benchmark and Metric for Multimodal Epistemic and Aleatoric Awareness [106.52630978891054]
視覚言語AIシステムに特有の不確実性の分類法を提案する。また、精度と校正誤差の両方によく相関する新しい計量信頼度重み付き精度を導入する。
論文参考訳（メタデータ） (2024-07-02T04:23:54Z)
Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文参考訳（メタデータ） (2024-03-19T09:28:19Z)
Robust and Interpretable Medical Image Classifiers via Concept Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文参考訳（メタデータ） (2023-10-04T21:57:09Z)
HealthyGAN: Learning from Unannotated Medical Images to Detect Anomalies Associated with Human Disease [13.827062843105365]
現在の医療画像学における典型的な手法は、健康な被験者のみから診断モデルを導出することに集中している。 HealthyGANは、混合データセットから正常な画像のみに変換することを学習する。 1方向であるHealthyGANは、既存の未ペア画像から画像への変換方法のサイクル一貫性の要求を緩和する。
論文参考訳（メタデータ） (2022-09-05T08:10:52Z)
StRegA: Unsupervised Anomaly Detection in Brain MRIs using a Compact Context-encoding Variational Autoencoder [48.2010192865749]
教師なし異常検出(UAD)は、健康な被験者の異常なデータセットからデータ分布を学習し、分布サンプルの抽出に応用することができる。本研究では,コンテクストエンコーディング(context-encoding)VAE(ceVAE)モデルのコンパクトバージョンと,前処理と後処理のステップを組み合わせて,UADパイプライン(StRegA)を作成することを提案する。提案したパイプラインは、BraTSデータセットのT2w画像と0.859$pm$0.112の腫瘍を検出しながら、Diceスコアが0.642$pm$0.101に達した。
論文参考訳（メタデータ） (2022-01-31T14:27:35Z)
Collaborative Boundary-aware Context Encoding Networks for Error Map Prediction [65.44752447868626]
本稿では,AEP-Net と呼ばれる協調的コンテキスト符号化ネットワークを提案する。具体的には、画像とマスクのより優れた特徴融合のための協調的な特徴変換分岐と、エラー領域の正確な局所化を提案する。 AEP-Netはエラー予測タスクの平均DSCが0.8358,0.8164であり、ピアソン相関係数が0.9873である。
論文参考訳（メタデータ） (2020-06-25T12:42:01Z)
Multi-task Ensembles with Crowdsourced Features Improve Skin Lesion Diagnosis [0.22940141855172028]
本稿では,より直感的に提供される画像の視覚的特徴について,聴衆に問うことを提案する。提案手法をベースラインモデルとISIC 2017チャレンジデータセットの2000種類の皮膚病変と比較した。個別のクラウドソース機能を持つマルチタスクモデルでは,モデルに限定的な効果が得られたが,アンサンブルに組み合わされた場合,一般化が向上することを示す。
論文参考訳（メタデータ） (2020-04-28T13:48:40Z)
An interpretable classifier for high-resolution breast cancer screening images utilizing weakly supervised localization [45.00998416720726]
医用画像の特徴に対処する枠組みを提案する。このモデルはまず、画像全体の低容量だがメモリ効率のよいネットワークを使用して、最も情報性の高い領域を識別する。次に、選択したリージョンから詳細を収集するために、別の高容量ネットワークを適用します。最後に、グローバルおよびローカル情報を集約して最終的な予測を行うフュージョンモジュールを使用する。
論文参考訳（メタデータ） (2020-02-13T15:28:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。