Fugu-MT 論文翻訳(概要): Multi-Image Visual Question Answering for Unsupervised Anomaly Detection

論文の概要: Multi-Image Visual Question Answering for Unsupervised Anomaly Detection

arxiv url: http://arxiv.org/abs/2404.07622v1
Date: Thu, 11 Apr 2024 10:16:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-12 14:19:15.594899
Title: Multi-Image Visual Question Answering for Unsupervised Anomaly Detection
Title（参考訳）: 教師なし異常検出のためのマルチイメージビジュアル質問応答
Authors: Jun Li, Cosmin I. Bercea, Philip Müller, Lina Felsner, Suhwan Kim, Daniel Rueckert, Benedikt Wiestler, Julia A. Schnabel,
Abstract要約: 教師なし異常検出は、通常の画像のみに特化して訓練されたモデルによって生成された擬似健康再構築を用いて、原画像のジャクサポス化によって、潜在的な病理領域の同定を可能にする。近年の言語モデルの進歩は、人間のような理解を模倣し、詳細な記述を提供する能力を示している。本稿では,視覚的知識抽出に多彩な特徴融合戦略を取り入れた,異常検出に適した新しいマルチイメージ視覚質問応答フレームワークを提案する。
参考スコア（独自算出の注目度）: 13.674931689496225
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Unsupervised anomaly detection enables the identification of potential pathological areas by juxtaposing original images with their pseudo-healthy reconstructions generated by models trained exclusively on normal images. However, the clinical interpretation of resultant anomaly maps presents a challenge due to a lack of detailed, understandable explanations. Recent advancements in language models have shown the capability of mimicking human-like understanding and providing detailed descriptions. This raises an interesting question: \textit{How can language models be employed to make the anomaly maps more explainable?} To the best of our knowledge, we are the first to leverage a language model for unsupervised anomaly detection, for which we construct a dataset with different questions and answers. Additionally, we present a novel multi-image visual question answering framework tailored for anomaly detection, incorporating diverse feature fusion strategies to enhance visual knowledge extraction. Our experiments reveal that the framework, augmented by our new Knowledge Q-Former module, adeptly answers questions on the anomaly detection dataset. Besides, integrating anomaly maps as inputs distinctly aids in improving the detection of unseen pathologies.
Abstract（参考訳）: 教師なし異常検出は、通常の画像のみに特化して訓練されたモデルによって生成された擬似健康再構築を用いて、原画像のジャクサポス化によって、潜在的な病理領域の同定を可能にする。しかしながら、結果の異常マップの臨床的解釈は、詳細で理解可能な説明が欠如していることから、課題を呈している。近年の言語モデルの進歩は、人間のような理解を模倣し、詳細な記述を提供する能力を示している。これは興味深い疑問を提起する。 \textit{How can be used to the anomaly map more explainable? } 私たちの知る限りでは、教師なしの異常検出に言語モデルを最初に活用し、異なる質問と回答のデータセットを構築します。さらに,視覚的知識抽出に多彩な特徴融合戦略を取り入れた,異常検出に適した多面的視覚質問応答フレームワークを提案する。実験の結果,新たなKnowledge Q-Formerモジュールによって拡張されたこのフレームワークは,異常検出データセットに関する質問に答えることができた。さらに、異常マップを入力として統合することは、目に見えない病態の検出を改善するのに役立つ。

関連論文リスト

Epistemic-aware Vision-Language Foundation Model for Fetal Ultrasound Interpretation [83.02147613524032]
医療用AIシステムFetalMindについて報告する。本稿では、専門家による2部グラフをモデルに注入し、ビュー・ディスリーズ関連を分離するSED(Salient Epistemic Disentanglement)を提案する。 FetalMindはすべての妊娠期のオープンソースおよびクローズドソースベースラインを上回り、平均利得は+14%、臨界条件では+61.2%高い。
論文参考訳（メタデータ） (2025-10-14T19:57:03Z)
MedQARo: A Large-Scale Benchmark for Medical Question Answering in Romanian [50.767415194856135]
ルーマニア初の大規模医療QAベンチマークであるMedQARoを紹介する。がん患者に関連する102,646のQAペアからなる高品質で大規模なデータセットを構築した。
論文参考訳（メタデータ） (2025-08-22T13:48:37Z)
Large-scale and Fine-grained Vision-language Pre-training for Enhanced CT Image Understanding [17.783231335173486]
解剖学的CT画像解釈のための細粒度視覚言語モデル(fVLM)を提案する。しかし、微粒なアライメントは、かなり偽陰性な課題に直面している。今回,69,086例のCT画像と報告データをもとに,これまでで最大のCTデータセットを収集した。
論文参考訳（メタデータ） (2025-01-24T14:50:48Z)
RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment [10.67889367763112]
RadAlignは、視覚言語モデルの予測精度と大きな言語モデルの推論能力を組み合わせた、新しいフレームワークである。本フレームワークは, 幻覚の低減, 自動医用画像の進歩, 予測AIと生成AIの統合による報告分析を両立させながら, 強力な臨床解釈可能性を維持している。
論文参考訳（メタデータ） (2025-01-13T17:55:32Z)
FADE: Few-shot/zero-shot Anomaly Detection Engine using Large Vision-Language Model [0.9226774742769024]
製造業界における品質検査には,少ないショット・ゼロショット異常検出が重要である。視覚言語CLIPモデルを利用したFew-shot/zero-shot Anomaly Engine Detection (FADE)を提案する。 FADEは、ゼロショットで89.6%(91.5%)、ノーマルショットで95.4%(97.5%)の異常セグメンテーションにおいて、他の最先端の手法よりも優れている。
論文参考訳（メタデータ） (2024-08-31T23:05:56Z)
Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文参考訳（メタデータ） (2024-07-11T16:51:33Z)
Certainly Uncertain: A Benchmark and Metric for Multimodal Epistemic and Aleatoric Awareness [106.52630978891054]
視覚言語AIシステムに特有の不確実性の分類法を提案する。また、精度と校正誤差の両方によく相関する新しい計量信頼度重み付き精度を導入する。
論文参考訳（メタデータ） (2024-07-02T04:23:54Z)
Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文参考訳（メタデータ） (2024-03-19T09:28:19Z)
Robust and Interpretable Medical Image Classifiers via Concept Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文参考訳（メタデータ） (2023-10-04T21:57:09Z)
HealthyGAN: Learning from Unannotated Medical Images to Detect Anomalies Associated with Human Disease [13.827062843105365]
現在の医療画像学における典型的な手法は、健康な被験者のみから診断モデルを導出することに集中している。 HealthyGANは、混合データセットから正常な画像のみに変換することを学習する。 1方向であるHealthyGANは、既存の未ペア画像から画像への変換方法のサイクル一貫性の要求を緩和する。
論文参考訳（メタデータ） (2022-09-05T08:10:52Z)
StRegA: Unsupervised Anomaly Detection in Brain MRIs using a Compact Context-encoding Variational Autoencoder [48.2010192865749]
教師なし異常検出(UAD)は、健康な被験者の異常なデータセットからデータ分布を学習し、分布サンプルの抽出に応用することができる。本研究では,コンテクストエンコーディング(context-encoding)VAE(ceVAE)モデルのコンパクトバージョンと,前処理と後処理のステップを組み合わせて,UADパイプライン(StRegA)を作成することを提案する。提案したパイプラインは、BraTSデータセットのT2w画像と0.859$pm$0.112の腫瘍を検出しながら、Diceスコアが0.642$pm$0.101に達した。
論文参考訳（メタデータ） (2022-01-31T14:27:35Z)
Collaborative Boundary-aware Context Encoding Networks for Error Map Prediction [65.44752447868626]
本稿では,AEP-Net と呼ばれる協調的コンテキスト符号化ネットワークを提案する。具体的には、画像とマスクのより優れた特徴融合のための協調的な特徴変換分岐と、エラー領域の正確な局所化を提案する。 AEP-Netはエラー予測タスクの平均DSCが0.8358,0.8164であり、ピアソン相関係数が0.9873である。
論文参考訳（メタデータ） (2020-06-25T12:42:01Z)
Multi-task Ensembles with Crowdsourced Features Improve Skin Lesion Diagnosis [0.22940141855172028]
本稿では,より直感的に提供される画像の視覚的特徴について,聴衆に問うことを提案する。提案手法をベースラインモデルとISIC 2017チャレンジデータセットの2000種類の皮膚病変と比較した。個別のクラウドソース機能を持つマルチタスクモデルでは,モデルに限定的な効果が得られたが,アンサンブルに組み合わされた場合,一般化が向上することを示す。
論文参考訳（メタデータ） (2020-04-28T13:48:40Z)
An interpretable classifier for high-resolution breast cancer screening images utilizing weakly supervised localization [45.00998416720726]
医用画像の特徴に対処する枠組みを提案する。このモデルはまず、画像全体の低容量だがメモリ効率のよいネットワークを使用して、最も情報性の高い領域を識別する。次に、選択したリージョンから詳細を収集するために、別の高容量ネットワークを適用します。最後に、グローバルおよびローカル情報を集約して最終的な予測を行うフュージョンモジュールを使用する。
論文参考訳（メタデータ） (2020-02-13T15:28:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。