Fugu-MT 論文翻訳(概要): That's the Wrong Lung! Evaluating and Improving the Interpretability of Unsupervised Multimodal Encoders for Medical Data

論文の概要: That's the Wrong Lung! Evaluating and Improving the Interpretability of Unsupervised Multimodal Encoders for Medical Data

arxiv url: http://arxiv.org/abs/2210.06565v1
Date: Wed, 12 Oct 2022 20:08:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-14 14:03:58.091360
Title: That's the Wrong Lung! Evaluating and Improving the Interpretability of Unsupervised Multimodal Encoders for Medical Data
Title（参考訳）: これが「Wrong Lung! 医療データに対する教師なしマルチモーダルエンコーダの解釈可能性の評価と改善
Authors: Denis Jered McInerney, Geoffrey Young, Jan-Willem van de Meent, and Byron Wallace
Abstract要約: マルチモーダルモデルは、画像領域と文間のソフトな局所的なアライメントを誘導する。我々は、EHRの最先端マルチモーダル(画像とテキスト)モデルと、画像領域と文をリンクする人間のアノテーションとのアライメントを比較した。我々の主な発見は、本文が注意に弱く、直感的に影響されることがしばしばあり、アライメントは基本的な解剖学的情報を一貫して反映していないことである。
参考スコア（独自算出の注目度）: 4.841820698586373
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Pretraining multimodal models on Electronic Health Records (EHRs) provides a means of learning representations that can transfer to downstream tasks with minimal supervision. Recent multimodal models induce soft local alignments between image regions and sentences. This is of particular interest in the medical domain, where alignments might highlight regions in an image relevant to specific phenomena described in free-text. While past work has suggested that attention "heatmaps" can be interpreted in this manner, there has been little evaluation of such alignments. We compare alignments from a state-of-the-art multimodal (image and text) model for EHR with human annotations that link image regions to sentences. Our main finding is that the text has an often weak or unintuitive influence on attention; alignments do not consistently reflect basic anatomical information. Moreover, synthetic modifications -- such as substituting "left" for "right" -- do not substantially influence highlights. Simple techniques such as allowing the model to opt out of attending to the image and few-shot finetuning show promise in terms of their ability to improve alignments with very little or no supervision.
Abstract（参考訳）: EHR(Electronic Health Records)上のマルチモーダルモデルの事前トレーニングは、最小限の監督で下流タスクに転送可能な、学習表現の手段を提供する。最近のマルチモーダルモデルは、画像領域と文間のソフトな局所的アライメントを誘導する。これは医学領域において特に関心があり、フリーテキストで記述された特定の現象に関連する画像の領域をアライメントが強調することがある。過去の研究は、注意"ヒートマップ"をこのように解釈できることを示唆しているが、そのようなアライメントについてはほとんど評価されていない。 ehrの最先端マルチモーダル(画像とテキスト)モデルのアライメントと、画像領域と文をリンクする人間のアノテーションを比較した。私たちの主な発見は、テキストがしばしば注意に弱いか直観的でない影響を与えることであり、アライメントは一貫して解剖学的情報を反映していないことである。さらに、"左"を"右"に置換するなど、合成された修正はハイライトに大きな影響を与えない。モデルが画像への参加をオプトアウトすることや、数発の微調整のような単純なテクニックは、監督をほとんどあるいは全く行わずにアライメントを改善する能力を約束する。

関連論文リスト

Generate to Ground: Multimodal Text Conditioning Boosts Phrase Grounding in Medical Vision-Language Models [6.408114351192012]
生成テキストから画像への拡散モデルにより,ゼロショットフレーズのグラウンド化性能が向上することを示す。その結果, 医用画像領域において, 句接頭のためのより効果的なパラダイムとして, 生成的アプローチが確立された。
論文参考訳（メタデータ） (2025-07-16T13:48:32Z)
Seeing the Trees for the Forest: Rethinking Weakly-Supervised Medical Visual Grounding [50.483761005446]
現在のモデルは、非効率な注意機構ときめ細かいトークン表現の欠如により、テキスト記述と病気領域を関連付けるのに苦労している。本稿では、VLMの説明可能性マップを用いて、適切な画像特徴を識別する病原体認識プロンプト(DAP)を提案する。 DAPは3つの主要な胸部X線データセットの最先端手法と比較して、視覚的接地精度を20.74%向上させる。
論文参考訳（メタデータ） (2025-05-21T05:16:45Z)
BiPVL-Seg: Bidirectional Progressive Vision-Language Fusion with Global-Local Alignment for Medical Image Segmentation [9.262045402495225]
BiPVL-Segは、視覚言語融合と埋め込みアライメントを統合するエンドツーエンドフレームワークである。 BiPVL-Segはアーキテクチャにプログレッシブ融合を導入し、視覚とテキストエンコーダの段階的な情報交換を容易にする。これは、クラスレベルと概念レベルの両方でテキストと視覚の埋め込みをアライメントすることで、テキストエンコーダの理解を高める訓練目的である。
論文参考訳（メタデータ） (2025-03-30T17:34:39Z)
Language-guided Medical Image Segmentation with Target-informed Multi-level Contrastive Alignments [7.9714765680840625]
ターゲット型マルチレベルコントラストアライメント(TMCA)を用いた言語誘導セグメンテーションネットワークを提案する。 TMCAは、言語誘導セグメンテーションにおけるパターンギャップを橋渡しするために、ターゲット・インフォームド・クロスモダリティアライメントときめ細かいテキストガイダンスを可能にする。
論文参考訳（メタデータ） (2024-12-18T06:19:03Z)
Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文参考訳（メタデータ） (2024-05-30T03:15:09Z)
Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。文献における既存手法に対して,本手法は良好な性能を発揮する。
論文参考訳（メタデータ） (2024-04-01T17:48:15Z)
Misalign, Contrast then Distill: Rethinking Misalignments in Language-Image Pretraining [10.649402840032138]
コントラスト言語-画像事前学習は、Webから未修正画像-テキストペアで視覚とテキストエンコーダを訓練するための顕著なアプローチとして登場した。画像の増大過程はテキストを意識していないため、この手順はトレーニング中に様々な画像テキストの誤認識を引き起こす可能性がある。そこで本研究では,これらのミスアライメントを付加的なトレーニング源として活用する,新しい計量学習手法を提案する。
論文参考訳（メタデータ） (2023-12-19T23:22:47Z)
OT-Attack: Enhancing Adversarial Transferability of Vision-Language Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文参考訳（メタデータ） (2023-12-07T16:16:50Z)
Improving Compositional Text-to-image Generation with Large Vision-Language Models [26.202725136839632]
合成テキスト画像モデルは、入力テキストと整合した高品質な画像を生成するのにしばしば困難に直面する。生成した画像と対応する入力テキストのアライメントの多次元評価には,大規模視覚言語モデル(LVLM)を用いる。提案手法は,合成画像生成におけるテキスト画像のアライメントを大幅に改善することを確認した。
論文参考訳（メタデータ） (2023-10-10T05:09:05Z)
Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文参考訳（メタデータ） (2023-01-11T16:35:33Z)
Image-Specific Information Suppression and Implicit Local Alignment for Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。 TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文参考訳（メタデータ） (2022-08-30T16:14:18Z)
Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文参考訳（メタデータ） (2022-08-04T07:51:48Z)
ITA: Image-Text Alignments for Multi-Modal Named Entity Recognition [38.08486689940946]
MNER(Multi-modal Named Entity Recognition)は多くの注目を集めている。画像やテキスト表現などのインタラクションを,それぞれのモダリティのデータに基づいて個別に訓練することは困難である。本稿では,画像特徴をテキスト空間に整列させるため,bf Image-bf text bf Alignments (ITA)を提案する。
論文参考訳（メタデータ） (2021-12-13T08:29:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。