論文の概要: ELVIS: Empowering Locality of Vision Language Pre-training with
Intra-modal Similarity
- arxiv url: http://arxiv.org/abs/2304.05303v2
- Date: Sun, 23 Jul 2023 15:11:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 23:22:22.549016
- Title: ELVIS: Empowering Locality of Vision Language Pre-training with
Intra-modal Similarity
- Title(参考訳): ELVIS:モーダル内類似性を考慮した視覚言語事前学習の局所性向上
- Authors: Sumin Seo, JaeWoong Shin, Jaewoo Kang, Tae Soo Kim, Thijs Kooi
- Abstract要約: 深層学習は胸部X線画像(CXR)の読影において放射線技師を支援する大きな可能性を示している。
視覚言語事前学習は、レントグラフの定期的なレポートを活用することで、アノテーションの負担とコストを軽減することができる。
- 参考スコア(独自算出の注目度): 22.34714466687089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has shown great potential in assisting radiologists in reading
chest X-ray (CXR) images, but its need for expensive annotations for improving
performance prevents widespread clinical application. Visual language
pre-training (VLP) can alleviate the burden and cost of annotation by
leveraging routinely generated reports for radiographs, which exist in large
quantities as well as in paired form (image-text pairs). Additionally,
extensions to localization-aware VLPs are being proposed to address the needs
for accurate localization of abnormalities for computer-aided diagnosis (CAD)
in CXR. However, we find that the formulation proposed by locality-aware VLP
literature actually leads to a loss in spatial relationships required for
downstream localization tasks. Therefore, we propose Empowering Locality of VLP
with Intra-modal Similarity, ELVIS, a VLP aware of intra-modal locality, to
better preserve the locality within radiographs or reports, which enhances the
ability to comprehend location references in text reports. Our locality-aware
VLP method significantly outperforms state-of-the art baselines in multiple
segmentation tasks and the MS-CXR phrase grounding task. Qualitatively, we show
that ELVIS focuses well on regions of interest described in the report text
compared to prior approaches, allowing for enhanced interpretability.
- Abstract(参考訳): 深層学習は胸部X線画像(CXR)の読影において放射線技師を支援する大きな可能性を示しているが、パフォーマンス向上のための高価なアノテーションの必要性は、広く臨床応用を妨げている。
視覚言語事前学習(VLP)は、大量の無線画像とペア形式(画像テキストペア)の定期的なレポートを活用することで、アノテーションの負担とコストを軽減することができる。
さらに、CXRにおけるコンピュータ支援診断(CAD)の異常の正確な局在化の必要性に対処するために、ローカライズ対応VLPの拡張も提案されている。
しかし, 局所性を考慮したVLP文献による定式化は, 下流の局所化作業に必要な空間的関係の喪失につながることがわかった。
そこで本研究では,VLP の局所性をモダル内類似性に富む ELVIS を提案し,モダル内類似性を認識した VLP を用いて,X線写真やレポート内の局所性をよりよく保存し,テキストレポートにおける位置参照の理解能力を高める。
我々の局所性認識型VLP法は,複数のセグメンテーションタスクとMS-CXRフレーズグラウンドタスクにおいて,最先端のアートベースラインを著しく上回る。
ELVISは,従来の手法と比較して,レポートテキストに記述された関心領域によく焦点が当てられており,解釈可能性の向上が期待できる。
関連論文リスト
- Large Language Model with Region-guided Referring and Grounding for CT Report Generation [4.804660464589285]
既存の方法は主にボリューム全体のグローバルな特徴についてのみ考慮する。
我々は,CTレポート生成のための第1の領域誘導参照およびグラウンドディングフレームワークであるReg2RGを提案する。
論文 参考訳(メタデータ) (2024-11-23T12:25:06Z) - SGSeg: Enabling Text-free Inference in Language-guided Segmentation of Chest X-rays via Self-guidance [10.075820470715374]
テキストフリー推論(ユニモーダル)を実現しつつ、学習のための言語指導(マルチモーダル)を活用するセルフガイドセグメンテーションフレームワーク(SGSeg)を提案する。
本報告では, 肺, 病理組織ともに重要な位置情報を活用するとともに, 自己指導のための臨床報告を生成するために, 新たな局所化強化レポート生成(LERG)モジュールを導入する。
我々のLERGは、位置認識型擬似ラベル抽出モジュールによって弱制御された、オブジェクト検出器と位置ベースアグリゲータを統合している。
論文 参考訳(メタデータ) (2024-09-07T08:16:00Z) - Self-supervised vision-langage alignment of deep learning representations for bone X-rays analysis [53.809054774037214]
本稿では, 骨X線とフレンチレポートを組み合わせることで, 視覚言語による事前訓練を活用することを提案する。
骨X線表現にまつわる埋め込み空間を形成するために、フランスの報告を統合する最初の研究である。
論文 参考訳(メタデータ) (2024-05-14T19:53:20Z) - Contrastive Region Guidance: Improving Grounding in Vision-Language
Models without Training [79.27663870280038]
Contrastive Region Guidance (CRG) は、オープンソースの視覚言語モデルで視覚的プロンプトに応答できる訓練不要のガイダンス手法である。
領域アノテーションが提供されると、CRGはViP-Benchで最大11.1%精度が向上する。
また,空間推論へのCRGの適用性を示すとともに,What'sUpでは10%の改善が見られた。
論文 参考訳(メタデータ) (2024-03-04T18:55:30Z) - Multimodal self-supervised learning for lesion localization [41.7046184109176]
テキストレポートから全文を局所的意味的アライメントの基本単位として取り出す新しい手法が導入された。
このアプローチは胸部X線画像と対応するテキストレポートを組み合わせることで、グローバルレベルとローカルレベルの両方でコントラスト学習を行う。
論文 参考訳(メタデータ) (2024-01-03T03:33:48Z) - Multi-modal Pre-training for Medical Vision-language Understanding and
Generation: An Empirical Study with A New Benchmark [12.565598914787834]
RGC(RadioGraphy Captions)は、18,434枚の画像キャプチャー対を含む高品質でマルチモードなラジオグラフィーデータセットである。
RGCは、事前トレーニングデータセットや、医療報告の生成と医用画像テキスト検索のための新しいベンチマークとして使用することができる。
論文 参考訳(メタデータ) (2023-06-10T17:27:33Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature
Alignment [52.489874804051304]
VoLTAは、画像キャプチャデータのみを使用するが、きめ細かい領域レベルの画像理解を利用する新しい視覚言語事前学習パラダイムである。
VoLTAは、プレトレーニング中にマルチモーダル融合をユニモーダルバックボーンに深く押し込む。
広範囲の視覚および視覚の下流タスクの実験は、VoLTAの有効性を実証している。
論文 参考訳(メタデータ) (2022-10-09T01:49:58Z) - PEVL: Position-enhanced Pre-training and Prompt Tuning for
Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。
PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。
PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2022-05-23T10:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。