論文の概要: That's the Wrong Lung! Evaluating and Improving the Interpretability of
Unsupervised Multimodal Encoders for Medical Data
- arxiv url: http://arxiv.org/abs/2210.06565v1
- Date: Wed, 12 Oct 2022 20:08:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 14:03:58.091360
- Title: That's the Wrong Lung! Evaluating and Improving the Interpretability of
Unsupervised Multimodal Encoders for Medical Data
- Title(参考訳): これが「Wrong Lung!
医療データに対する教師なしマルチモーダルエンコーダの解釈可能性の評価と改善
- Authors: Denis Jered McInerney, Geoffrey Young, Jan-Willem van de Meent, and
Byron Wallace
- Abstract要約: マルチモーダルモデルは、画像領域と文間のソフトな局所的なアライメントを誘導する。
我々は、EHRの最先端マルチモーダル(画像とテキスト)モデルと、画像領域と文をリンクする人間のアノテーションとのアライメントを比較した。
我々の主な発見は、本文が注意に弱く、直感的に影響されることがしばしばあり、アライメントは基本的な解剖学的情報を一貫して反映していないことである。
- 参考スコア(独自算出の注目度): 4.841820698586373
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Pretraining multimodal models on Electronic Health Records (EHRs) provides a
means of learning representations that can transfer to downstream tasks with
minimal supervision. Recent multimodal models induce soft local alignments
between image regions and sentences. This is of particular interest in the
medical domain, where alignments might highlight regions in an image relevant
to specific phenomena described in free-text. While past work has suggested
that attention "heatmaps" can be interpreted in this manner, there has been
little evaluation of such alignments. We compare alignments from a
state-of-the-art multimodal (image and text) model for EHR with human
annotations that link image regions to sentences. Our main finding is that the
text has an often weak or unintuitive influence on attention; alignments do not
consistently reflect basic anatomical information. Moreover, synthetic
modifications -- such as substituting "left" for "right" -- do not
substantially influence highlights. Simple techniques such as allowing the
model to opt out of attending to the image and few-shot finetuning show promise
in terms of their ability to improve alignments with very little or no
supervision.
- Abstract(参考訳): EHR(Electronic Health Records)上のマルチモーダルモデルの事前トレーニングは、最小限の監督で下流タスクに転送可能な、学習表現の手段を提供する。
最近のマルチモーダルモデルは、画像領域と文間のソフトな局所的アライメントを誘導する。
これは医学領域において特に関心があり、フリーテキストで記述された特定の現象に関連する画像の領域をアライメントが強調することがある。
過去の研究は、注意"ヒートマップ"をこのように解釈できることを示唆しているが、そのようなアライメントについてはほとんど評価されていない。
ehrの最先端マルチモーダル(画像とテキスト)モデルのアライメントと、画像領域と文をリンクする人間のアノテーションを比較した。
私たちの主な発見は、テキストがしばしば注意に弱いか直観的でない影響を与えることであり、アライメントは一貫して解剖学的情報を反映していないことである。
さらに、"左"を"右"に置換するなど、合成された修正はハイライトに大きな影響を与えない。
モデルが画像への参加をオプトアウトすることや、数発の微調整のような単純なテクニックは、監督をほとんどあるいは全く行わずにアライメントを改善する能力を約束する。
関連論文リスト
- Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。
空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。
時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:15:09Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Misalign, Contrast then Distill: Rethinking Misalignments in
Language-Image Pretraining [10.649402840032138]
コントラスト言語-画像事前学習は、Webから未修正画像-テキストペアで視覚とテキストエンコーダを訓練するための顕著なアプローチとして登場した。
画像の増大過程はテキストを意識していないため、この手順はトレーニング中に様々な画像テキストの誤認識を引き起こす可能性がある。
そこで本研究では,これらのミスアライメントを付加的なトレーニング源として活用する,新しい計量学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-19T23:22:47Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - Improving Compositional Text-to-image Generation with Large
Vision-Language Models [26.202725136839632]
合成テキスト画像モデルは、入力テキストと整合した高品質な画像を生成するのにしばしば困難に直面する。
生成した画像と対応する入力テキストのアライメントの多次元評価には,大規模視覚言語モデル(LVLM)を用いる。
提案手法は,合成画像生成におけるテキスト画像のアライメントを大幅に改善することを確認した。
論文 参考訳(メタデータ) (2023-10-10T05:09:05Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - ITA: Image-Text Alignments for Multi-Modal Named Entity Recognition [38.08486689940946]
MNER(Multi-modal Named Entity Recognition)は多くの注目を集めている。
画像やテキスト表現などのインタラクションを,それぞれのモダリティのデータに基づいて個別に訓練することは困難である。
本稿では,画像特徴をテキスト空間に整列させるため,bf Image-bf text bf Alignments (ITA)を提案する。
論文 参考訳(メタデータ) (2021-12-13T08:29:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。