論文の概要: G2D: From Global to Dense Radiography Representation Learning via Vision-Language Pre-training
- arxiv url: http://arxiv.org/abs/2312.01522v2
- Date: Sat, 28 Sep 2024 17:04:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:01:04.011494
- Title: G2D: From Global to Dense Radiography Representation Learning via Vision-Language Pre-training
- Title(参考訳): G2D:ビジョンランゲージ事前学習による地球から高密度放射線画像表現学習
- Authors: Che Liu, Cheng Ouyang, Sibo Cheng, Anand Shah, Wenjia Bai, Rossella Arcucci,
- Abstract要約: 我々は、textbfDenseレベル表現学習(G2D)のための、textbfGlobalという新しい医用ビジョン言語事前学習フレームワークを提案する。
G2Dは,大域的視覚言語アライメントと並行して,擬似セグメンテーションタスクを通じて,密で意味的な画像表現を学習する。
G2Dは、6つの医療画像タスクと25の疾患、特にセマンティックセグメンテーションにおいて優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 10.786853837756686
- License:
- Abstract: Recently, medical vision-language pre-training (VLP) has reached substantial progress to learn global visual representation from medical images and their paired radiology reports. However, medical imaging tasks in real world usually require finer granularity in visual features. These tasks include visual localization tasks (e.g., semantic segmentation, object detection) and visual grounding task. Yet, current medical VLP methods face challenges in learning these fine-grained features, as they primarily focus on brute-force alignment between image patches and individual text tokens for local visual feature learning, which is suboptimal for downstream dense prediction tasks. In this work, we propose a new VLP framework, named \textbf{G}lobal to \textbf{D}ense level representation learning (G2D) that achieves significantly improved granularity and more accurate grounding for the learned features, compared to existing medical VLP approaches. In particular, G2D learns dense and semantically-grounded image representations via a pseudo segmentation task parallel with the global vision-language alignment. Notably, generating pseudo segmentation targets does not incur extra trainable parameters: they are obtained on the fly during VLP with a parameter-free processor. G2D achieves superior performance across 6 medical imaging tasks and 25 diseases, particularly in semantic segmentation, which necessitates fine-grained, semantically-grounded image features. In this task, G2D surpasses peer models even when fine-tuned with just 1\% of the training data, compared to the 100\% used by these models. The code will be released upon acceptance.
- Abstract(参考訳): 近年,医用視覚言語プレトレーニング(VLP)は,医用画像とそのペアラジオグラフィーレポートからグローバルな視覚表現を学習するための大きな進歩を遂げている。
しかし、現実の医療画像のタスクは、通常、視覚的特徴のより細かい粒度を必要とする。
これらのタスクには、視覚的なローカライゼーションタスク(例えば、セマンティックセグメンテーション、オブジェクト検出)と視覚的なグラウンドタスクが含まれる。
しかし、現在の医療用VLP法は、主に画像パッチと局所的な視覚的特徴学習のための個々のテキストトークン間のブルートフォースアライメントに焦点を当てており、下流の高密度予測タスクに最適である。
本研究では,既存の医療用VLPアプローチと比較して,学習対象の粒度と精度を著しく向上する,新しいVLPフレームワークである「textbf{G}lobal to \textbf{D}enseレベル表現学習(G2D)」を提案する。
特に、G2Dは、大域的視覚言語アライメントと平行な擬分節タスクを通じて、密で意味論的に基底化された画像表現を学習する。
特筆すべきは、擬似セグメンテーションターゲットの生成は、パラメータフリープロセッサでVLP中に得られた、追加のトレーニング可能なパラメータを発生させないことである。
G2Dは、6つの医療画像タスクと25の疾患、特に微細でセマンティックな画像の特徴を必要とするセマンティックセグメンテーションにおいて、優れたパフォーマンスを達成している。
このタスクでは、G2Dは、これらのモデルで使用される100\%と比較して、トレーニングデータのわずか1\%で微調整された場合でも、ピアモデルを上回る。
コードは受理時にリリースされます。
関連論文リスト
- Tumor segmentation on whole slide images: training or prompting? [0.0]
3つの異なる臓器に対する腫瘍分節の文脈における視覚的プロンプトの有効性を示す。
この結果から,視覚的プロンプトは,適切なプロンプト例を用いて,広範囲な微調整を行なわずに,同等あるいは優れた性能を達成できることが判明した。
論文 参考訳(メタデータ) (2024-02-21T16:59:53Z) - Exploring Part-Informed Visual-Language Learning for Person
Re-Identification [40.725052076983516]
本稿では,視覚に基づく人物再識別作業において,部分的インフォームド言語による細粒度視覚的特徴の強化を提案する。
当社の$pi$-VLは、4つの一般的なReIDベンチマークで過去の最先端よりも大幅に改善されています。
論文 参考訳(メタデータ) (2023-08-04T23:13:49Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [144.38869017091199]
画像分類における視覚変換器(ViT)は、視覚表現学習の方法論をシフトさせている。
本研究では、高密度視覚予測のためのVTのグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - BLIP: Bootstrapping Language-Image Pre-training for Unified
Vision-Language Understanding and Generation [86.4572981982407]
視覚言語理解と生成の両方に柔軟に伝達する新しい視覚言語フレームワークBLIPを提案する。
BLIPは、キャプタが合成キャプタを生成し、フィルタがノイズのあるキャプタを除去するキャプタをブートストラップすることで、ノイズの多いWebデータを効果的に活用する。
BLIPはまた、ゼロショット方式で直接ビデオ言語タスクに移行する際に、強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-01-28T12:49:48Z) - Consensus Graph Representation Learning for Better Grounded Image
Captioning [48.208119537050166]
本稿では,接地画像キャプションのためのConsensus Rraph Representation Learning framework(CGRL)を提案する。
Flickr30k Entitiesデータセットにおける対象幻覚(-9% CHAIRi)の顕著な減少とともに,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-12-02T04:17:01Z) - Attention-Guided Supervised Contrastive Learning for Semantic
Segmentation [16.729068267453897]
画素ごとの予測タスクでは、セグメンテーションのために1つのイメージに複数のラベルが存在する可能性がある。
本研究では,1つの意味的対象を目標として毎回強調する,注意誘導型教師付きコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2021-06-03T05:01:11Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。