論文の概要: That's the Wrong Lung! Evaluating and Improving the Interpretability of
Unsupervised Multimodal Encoders for Medical Data
- arxiv url: http://arxiv.org/abs/2210.06565v1
- Date: Wed, 12 Oct 2022 20:08:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 14:03:58.091360
- Title: That's the Wrong Lung! Evaluating and Improving the Interpretability of
Unsupervised Multimodal Encoders for Medical Data
- Title(参考訳): これが「Wrong Lung!
医療データに対する教師なしマルチモーダルエンコーダの解釈可能性の評価と改善
- Authors: Denis Jered McInerney, Geoffrey Young, Jan-Willem van de Meent, and
Byron Wallace
- Abstract要約: マルチモーダルモデルは、画像領域と文間のソフトな局所的なアライメントを誘導する。
我々は、EHRの最先端マルチモーダル(画像とテキスト)モデルと、画像領域と文をリンクする人間のアノテーションとのアライメントを比較した。
我々の主な発見は、本文が注意に弱く、直感的に影響されることがしばしばあり、アライメントは基本的な解剖学的情報を一貫して反映していないことである。
- 参考スコア(独自算出の注目度): 4.841820698586373
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Pretraining multimodal models on Electronic Health Records (EHRs) provides a
means of learning representations that can transfer to downstream tasks with
minimal supervision. Recent multimodal models induce soft local alignments
between image regions and sentences. This is of particular interest in the
medical domain, where alignments might highlight regions in an image relevant
to specific phenomena described in free-text. While past work has suggested
that attention "heatmaps" can be interpreted in this manner, there has been
little evaluation of such alignments. We compare alignments from a
state-of-the-art multimodal (image and text) model for EHR with human
annotations that link image regions to sentences. Our main finding is that the
text has an often weak or unintuitive influence on attention; alignments do not
consistently reflect basic anatomical information. Moreover, synthetic
modifications -- such as substituting "left" for "right" -- do not
substantially influence highlights. Simple techniques such as allowing the
model to opt out of attending to the image and few-shot finetuning show promise
in terms of their ability to improve alignments with very little or no
supervision.
- Abstract(参考訳): EHR(Electronic Health Records)上のマルチモーダルモデルの事前トレーニングは、最小限の監督で下流タスクに転送可能な、学習表現の手段を提供する。
最近のマルチモーダルモデルは、画像領域と文間のソフトな局所的アライメントを誘導する。
これは医学領域において特に関心があり、フリーテキストで記述された特定の現象に関連する画像の領域をアライメントが強調することがある。
過去の研究は、注意"ヒートマップ"をこのように解釈できることを示唆しているが、そのようなアライメントについてはほとんど評価されていない。
ehrの最先端マルチモーダル(画像とテキスト)モデルのアライメントと、画像領域と文をリンクする人間のアノテーションを比較した。
私たちの主な発見は、テキストがしばしば注意に弱いか直観的でない影響を与えることであり、アライメントは一貫して解剖学的情報を反映していないことである。
さらに、"左"を"右"に置換するなど、合成された修正はハイライトに大きな影響を与えない。
モデルが画像への参加をオプトアウトすることや、数発の微調整のような単純なテクニックは、監督をほとんどあるいは全く行わずにアライメントを改善する能力を約束する。
関連論文リスト
- Adversarial Supervision Makes Layout-to-Image Diffusion Models Thrive [21.49096276631859]
現行のL2Iモデルは、テキスト経由の編集性が悪いか、生成された画像と入力レイアウトとのアライメントが弱いかのいずれかである。
我々は、従来のL2I拡散モデル(ALDM)の訓練パイプラインに敵の監督を統合することを提案する。
具体的には,画像と入力レイアウトとの間の画素レベルのアライメントに対して,拡散発生器に対して明示的なフィードバックを提供するセグメンテーションに基づく判別器を用いる。
論文 参考訳(メタデータ) (2024-01-16T20:31:46Z) - Misalign, Contrast then Distill: Rethinking Misalignments in
Language-Image Pretraining [10.649402840032138]
コントラスト言語-画像事前学習は、Webから未修正画像-テキストペアで視覚とテキストエンコーダを訓練するための顕著なアプローチとして登場した。
画像の増大過程はテキストを意識していないため、この手順はトレーニング中に様々な画像テキストの誤認識を引き起こす可能性がある。
そこで本研究では,これらのミスアライメントを付加的なトレーニング源として活用する,新しい計量学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-19T23:22:47Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - Improving Compositional Text-to-image Generation with Large
Vision-Language Models [26.202725136839632]
合成テキスト画像モデルは、入力テキストと整合した高品質な画像を生成するのにしばしば困難に直面する。
生成した画像と対応する入力テキストのアライメントの多次元評価には,大規模視覚言語モデル(LVLM)を用いる。
提案手法は,合成画像生成におけるテキスト画像のアライメントを大幅に改善することを確認した。
論文 参考訳(メタデータ) (2023-10-10T05:09:05Z) - Weakly-Supervised Visual-Textual Grounding with Semantic Prior
Refinement [52.80968034977751]
画像-文ペアのみを用いて、弱い教師付き視覚-テクスチュアルグラウンドは、各エンティティの言及の領域-フレーズ対応を学習することを目的としている。
本稿では,2つの主モジュールの出力を組み合わせて予測を行うセマンティック・プライオリファインメント・モデル(SPRM)を提案する。
このアプローチでは、Flickr30k EntitiesとReferItの2つの一般的なデータセットに対する最先端の結果が9.6%の絶対的な改善で示されている。
論文 参考訳(メタデータ) (2023-05-18T12:25:07Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - ITA: Image-Text Alignments for Multi-Modal Named Entity Recognition [38.08486689940946]
MNER(Multi-modal Named Entity Recognition)は多くの注目を集めている。
画像やテキスト表現などのインタラクションを,それぞれのモダリティのデータに基づいて個別に訓練することは困難である。
本稿では,画像特徴をテキスト空間に整列させるため,bf Image-bf text bf Alignments (ITA)を提案する。
論文 参考訳(メタデータ) (2021-12-13T08:29:43Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。