論文の概要: Making the Most of Text Semantics to Improve Biomedical Vision--Language
Processing
- arxiv url: http://arxiv.org/abs/2204.09817v1
- Date: Thu, 21 Apr 2022 00:04:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 12:36:37.082362
- Title: Making the Most of Text Semantics to Improve Biomedical Vision--Language
Processing
- Title(参考訳): テキストセマンティクスを最大限活用して生物医学的視覚処理を改善する
- Authors: Benedikt Boecking, Naoto Usuyama, Shruthi Bannur, Daniel C. Castro,
Anton Schwaighofer, Stephanie Hyland, Maria Wetscherek, Tristan Naumann,
Aditya Nori, Javier Alvarez-Valle, Hoifung Poon, and Ozan Oktay
- Abstract要約: テキスト・セマンティック・モデリングは自己教師付き視覚処理におけるコントラスト学習を大幅に改善できることを示す。
テキストモデリングの改善に焦点をあてた,自己教師型共同視覚言語アプローチを提案する。
- 参考スコア(独自算出の注目度): 17.96645738679543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal data abounds in biomedicine, such as radiology images and
reports. Interpreting this data at scale is essential for improving clinical
care and accelerating clinical research. Biomedical text with its complex
semantics poses additional challenges in vision-language modelling compared to
the general domain, and previous work has used insufficiently adapted models
that lack domain-specific language understanding. In this paper, we show that
principled textual semantic modelling can substantially improve contrastive
learning in self-supervised vision--language processing. We release a language
model that achieves state-of-the-art results in radiology natural language
inference through its improved vocabulary and novel language pretraining
objective leveraging semantics and discourse characteristics in radiology
reports. Further, we propose a self-supervised joint vision--language approach
with a focus on better text modelling. It establishes new state of the art
results on a wide range of publicly available benchmarks, in part by leveraging
our new domain-specific language model. We release a new dataset with
locally-aligned phrase grounding annotations by radiologists to facilitate the
study of complex semantic modelling in biomedical vision--language processing.
A broad evaluation, including on this new dataset, shows that our contrastive
learning approach, aided by textual-semantic modelling, outperforms prior
methods in segmentation tasks, despite only using a global-alignment objective.
- Abstract(参考訳): 放射線画像や報告など、バイオメディシンのマルチモーダルデータは多い。
このデータを大規模に解釈することは、臨床医療の改善と臨床研究の加速に不可欠である。
複雑な意味を持つバイオメディカルテキストは、一般的なドメインと比較して視覚言語モデリングにおいてさらなる課題をもたらし、以前の研究ではドメイン固有の言語理解に欠ける不十分な適応モデルを用いてきた。
本稿では,原則付きテキスト意味モデリングが,自己教師あり視覚言語処理におけるコントラスト学習を実質的に改善できることを示す。
我々は,その改良された語彙と新しい言語事前学習目標を通じて,放射線学的自然言語推論の最先端結果を達成する言語モデルをリリースする。
さらに,より優れたテキストモデリングに焦点をあてた自己教師付き共同視覚言語アプローチを提案する。
それは、新しいドメイン特化言語モデルを活用することで、幅広い公開可能なベンチマークで、アート結果の新たな状態を確立します。
我々は,生物医学的視覚言語処理における複雑な意味モデルの研究を容易にするために,放射線科医による局所的にアライメントされた句の接地アノテーションを用いた新しいデータセットをリリースする。
この新たなデータセットを含む幅広い評価により、我々のコントラスト学習アプローチは、グローバルアライメント目的のみを使用しても、セグメンテーションタスクにおける従来の手法よりも優れていることが示されている。
関連論文リスト
- Can a Neural Model Guide Fieldwork? A Case Study on Morphological Inflection [3.48094693551887]
言語学のフィールドワークは、言語の文書化と保存において重要な要素である。
本稿では,言語学者をフィールドワーク中に指導し,言語学者と話者の相互作用のダイナミクスを説明する新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-09-22T23:40:03Z) - Pushing the Limits of Vision-Language Models in Remote Sensing without Human Annotations [5.065947993017157]
本研究では、画像復号化機械学習モデルを用いて、視覚言語データセットをキュレートする手法を提案する。
約960万の視覚言語対のデータセットをVHR画像で収集しました。
結果として得られたモデルは、公開可能なビジョン言語データセットを活用できないものよりも優れていた。
論文 参考訳(メタデータ) (2024-09-11T06:36:08Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - Semantic Textual Similarity Assessment in Chest X-ray Reports Using a
Domain-Specific Cosine-Based Metric [1.7802147489386628]
本稿では,生成医療報告と基礎的真実とのセマンティックな類似性を評価するための新しいアプローチを提案する。
本手法の有効性を検証し,医学的文脈におけるドメイン固有の意味的類似性を評価する。
論文 参考訳(メタデータ) (2024-02-19T07:48:25Z) - ECAMP: Entity-centered Context-aware Medical Vision Language Pre-training [21.315060059765894]
本稿では,エンティティ中心型医療ビジョン言語事前学習のための新しいフレームワークを提案する。
医療報告からエンティティ中心のコンテキストを抽出し、テキストモダリティをより効果的に管理する。
提案したマルチスケールコンテキスト融合設計は、粗い画像表現と細かな画像表現の両方のセマンティックな統合も改善する。
論文 参考訳(メタデータ) (2023-12-20T11:00:54Z) - Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models [0.8878802873945023]
本研究では,視覚言語モデルから2次元医用画像への移行に関する最初の体系的研究を紹介する。
VLSMは画像のみのセグメンテーションモデルと比較して競合性能を示すが、全てのVLSMは言語プロンプトから追加情報を利用するわけではない。
論文 参考訳(メタデータ) (2023-08-15T11:28:21Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Morphologically Aware Word-Level Translation [82.59379608647147]
本稿では,バイリンガルレキシコン誘導のための新しい形態素認識確率モデルを提案する。
我々のモデルは、レキセメが意味の鍵となる語彙単位であるという基本的な言語的直観を生かしている。
論文 参考訳(メタデータ) (2020-11-15T17:54:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。