Fugu-MT 論文翻訳(概要): Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing

論文の概要: Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing

arxiv url: http://arxiv.org/abs/2301.04558v1
Date: Wed, 11 Jan 2023 16:35:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-12 14:01:02.747635
Title: Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing
Title（参考訳）: バイオメディカルビジョンランゲージ処理のための時間構造抽出学習
Authors: Shruthi Bannur, Stephanie Hyland, Qianchu Liu, Fernando Perez-Garcia, Maximilian Ilse, Daniel C. Castro, Benedikt Boecking, Harshita Sharma, Kenza Bouzid, Anja Thieme, Anton Schwaighofer, Maria Wetscherek, Matthew P. Lungren, Aditya Nori, Javier Alvarez-Valle, Ozan Oktay
Abstract要約: 視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
参考スコア（独自算出の注目度）: 53.89917396428747
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Self-supervised learning in vision-language processing exploits semantic alignment between imaging and text modalities. Prior work in biomedical VLP has mostly relied on the alignment of single image and report pairs even though clinical notes commonly refer to prior images. This does not only introduce poor alignment between the modalities but also a missed opportunity to exploit rich self-supervision through existing temporal content in the data. In this work, we explicitly account for prior images and reports when available during both training and fine-tuning. Our approach, named BioViL-T, uses a CNN-Transformer hybrid multi-image encoder trained jointly with a text model. It is designed to be versatile to arising challenges such as pose variations and missing input images across time. The resulting model excels on downstream tasks both in single- and multi-image setups, achieving state-of-the-art performance on (I) progression classification, (II) phrase grounding, and (III) report generation, whilst offering consistent improvements on disease classification and sentence-similarity tasks. We release a novel multi-modal temporal benchmark dataset, MS-CXR-T, to quantify the quality of vision-language representations in terms of temporal semantics. Our experimental results show the advantages of incorporating prior images and reports to make most use of the data.
Abstract（参考訳）: 視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。バイオメディカルvlpの先行研究は主に単一の画像とレポートペアのアライメントに依存しているが、臨床記録は一般的に先行画像を参照している。これは、モダリティ間の不一致をもたらすだけでなく、データ内の既存の時間的コンテンツを通してリッチな自己スーパービジョンを利用する機会を逃す。本研究では,トレーニングと微調整の両方において,事前のイメージとレポートを明示的に説明する。我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。ポーズのバリエーションや入力画像の欠如といった課題に対して、多用途に設計されている。結果として得られたモデルは、シングルイメージとマルチイメージの両方で下流タスクに優れ、(I)進行分類、(II)フレーズグラウンド、(III)レポート生成における最先端のパフォーマンスを達成するとともに、疾患分類と文相似タスクを一貫して改善する。我々は,視覚言語表現の質を時間意味論的に定量化するために,新しいマルチモーダル時相ベンチマークデータセットms-cxr-tをリリースする。実験結果から,先行画像とレポートを組み込むことによるデータ利用の利点が示された。

関連論文リスト

CLIP-IT: CLIP-based Pairing for Histology Images Classification [6.5280377968471]
マルチモーダル学習は医用画像解析において有望であり、組織像やテキストなどの相補的なモダリティを組み合わせたものである。 CLIP-IT(CLIP-IT)は、ペア化されたデータ要求をなくし、リッチな未ペアテキストレポートに依存する新しいフレームワークである。組織像データセットの実験により、CLIP-ITは、一様および多様のCLIPベースのベースラインの分類精度を一貫して改善することを確認した。
論文参考訳（メタデータ） (2025-04-22T18:14:43Z)
BioD2C: A Dual-level Semantic Consistency Constraint Framework for Biomedical VQA [5.840467499436581]
バイオメディカルVQAのための新しい2レベルセマンティック一貫性制約フレームワークBioD2Cを提案する。 BioD2Cは、モデルと特徴レベルの両方で二重レベルのセマンティックインタラクションアライメントを実現し、モデルが質問に基づいて視覚的特徴を適応的に学習できるようにする。本研究では,手動で修正した画像をフィルタリングし,質問と回答のペアをマルチモーダルな文脈で整列させることにより,過去のデータセットに固有のバイアスに対処する新たなデータセットであるBioVGQを確立する。
論文参考訳（メタデータ） (2025-03-04T10:39:42Z)
MedUnifier: Unifying Vision-and-Language Pre-training on Medical Data with Vision Generation Task using Discrete Visual Representations [13.991376926757036]
医療データに適した統合型ビジョンランゲージ事前学習フレームワークであるMedUnifierを提案する。 MedUnifierはテキスト基底画像生成機能とマルチモーダル学習戦略をシームレスに統合する。本手法では, 視覚ベクトル量子化を用いて, クロスモーダル理解のためのより密着的な学習戦略を実現するとともに, マルチモーダル生成品質を向上させる。
論文参考訳（メタデータ） (2025-03-02T21:09:32Z)
ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-12T13:28:46Z)
PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。 CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文参考訳（メタデータ） (2024-09-08T15:02:25Z)
Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文参考訳（メタデータ） (2024-05-30T03:15:09Z)
MLIP: Medical Language-Image Pre-training with Masked Local Representation Learning [20.33625985769796]
既存のコントラスト言語画像事前学習は、豊富な画像とテキストのペアをマッチングすることで、共同表現を学習することを目的としている。本稿では,限られた画像テキストの医療データをより効率的に活用する医用言語-画像事前学習フレームワークを提案する。評価の結果、MLIPはゼロ/フェーショット分類や少数ショット分割タスクにおいて、従来よりも大きなマージンで性能が向上していることがわかった。
論文参考訳（メタデータ） (2024-01-03T07:54:13Z)
Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models [0.8878802873945023]
本研究では,視覚言語モデルから2次元医用画像への移行に関する最初の体系的研究を紹介する。 VLSMは画像のみのセグメンテーションモデルと比較して競合性能を示すが、全てのVLSMは言語プロンプトから追加情報を利用するわけではない。
論文参考訳（メタデータ） (2023-08-15T11:28:21Z)
Unified Medical Image-Text-Label Contrastive Learning With Continuous Prompt [3.218449686637963]
本稿では,連続的なプロンプトに基づく画像-テキスト-ラベルのコントラスト学習フレームワークを提案する。我々は,Unified Medical Contrastive Learningフレームワークが下流のタスクに優れた性能を示すことを示す十分な実験を通して実証する。
論文参考訳（メタデータ） (2023-07-12T05:19:10Z)
Multiscale Progressive Text Prompt Network for Medical Image Segmentation [10.121625177837931]
本稿では,先行知識としてプログレッシブテキストプロンプトを用いてセグメンテーションプロセスを導くことを提案する。このモデルでは,データアノテーションのコストを低くして高品質な結果が得られる。
論文参考訳（メタデータ） (2023-06-30T23:37:16Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)
Generative Negative Text Replay for Continual Vision-Language Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。大量のデータは、通常ストリーミング形式で収集される。本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文参考訳（メタデータ） (2022-10-31T13:42:21Z)
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文参考訳（メタデータ） (2022-05-24T11:52:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。