論文の概要: G2D: From Global to Dense Radiography Representation Learning via Vision-Language Pre-training
- arxiv url: http://arxiv.org/abs/2312.01522v4
- Date: Thu, 24 Oct 2024 20:01:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:34:59.916607
- Title: G2D: From Global to Dense Radiography Representation Learning via Vision-Language Pre-training
- Title(参考訳): G2D:ビジョンランゲージ事前学習による地球から高密度放射線画像表現学習
- Authors: Che Liu, Cheng Ouyang, Sibo Cheng, Anand Shah, Wenjia Bai, Rossella Arcucci,
- Abstract要約: 我々は、textbfDenseレベル表現学習(G2D)のための、textbfGlobalという新しい医用ビジョン言語事前学習フレームワークを提案する。
G2Dは,大域的視覚言語アライメントと並行して,擬似セグメンテーションタスクを通じて,密で意味的な画像表現を学習する。
G2Dは、6つの医療画像タスクと25の疾患、特にセマンティックセグメンテーションにおいて優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 10.786853837756686
- License:
- Abstract: Recently, medical vision-language pre-training (VLP) has reached substantial progress to learn global visual representation from medical images and their paired radiology reports. However, medical imaging tasks in real world usually require finer granularity in visual features. These tasks include visual localization tasks (e.g., semantic segmentation, object detection) and visual grounding task. Yet, current medical VLP methods face challenges in learning these fine-grained features, as they primarily focus on brute-force alignment between image patches and individual text tokens for local visual feature learning, which is suboptimal for downstream dense prediction tasks. In this work, we propose a new VLP framework, named \textbf{G}lobal to \textbf{D}ense level representation learning (G2D) that achieves significantly improved granularity and more accurate grounding for the learned features, compared to existing medical VLP approaches. In particular, G2D learns dense and semantically-grounded image representations via a pseudo segmentation task parallel with the global vision-language alignment. Notably, generating pseudo segmentation targets does not incur extra trainable parameters: they are obtained on the fly during VLP with a parameter-free processor. G2D achieves superior performance across 6 medical imaging tasks and 25 diseases, particularly in semantic segmentation, which necessitates fine-grained, semantically-grounded image features. In this task, G2D surpasses peer models even when fine-tuned with just 1\% of the training data, compared to the 100\% used by these models. The code can be found in https://github.com/cheliu-computation/G2D-NeurIPS24/tree/main.
- Abstract(参考訳): 近年,医用視覚言語プレトレーニング(VLP)は,医用画像とそのペアラジオグラフィーレポートからグローバルな視覚表現を学習するための大きな進歩を遂げている。
しかし、現実の医療画像のタスクは、通常、視覚的特徴のより細かい粒度を必要とする。
これらのタスクには、視覚的なローカライゼーションタスク(例えば、セマンティックセグメンテーション、オブジェクト検出)と視覚的なグラウンドタスクが含まれる。
しかし、現在の医療用VLP法は、主に画像パッチと局所的な視覚的特徴学習のための個々のテキストトークン間のブルートフォースアライメントに焦点を当てており、下流の高密度予測タスクに最適である。
本研究では,既存の医療用VLPアプローチと比較して,学習対象の粒度と精度を著しく向上する,新しいVLPフレームワークである「textbf{G}lobal to \textbf{D}enseレベル表現学習(G2D)」を提案する。
特に、G2Dは、大域的な視覚言語アライメントと平行な擬分節タスクを通じて、密集した意味的な画像表現を学習する。
特筆すべきは、擬似セグメンテーションターゲットの生成は、パラメータフリープロセッサでVLP中に得られた、追加のトレーニング可能なパラメータを発生させないことである。
G2Dは、6つの医療画像タスクと25の疾患、特に微細でセマンティックな画像の特徴を必要とするセマンティックセグメンテーションにおいて、優れたパフォーマンスを達成している。
このタスクでは、G2Dは、これらのモデルで使用される100\%と比較して、トレーニングデータのわずか1\%で微調整された場合でも、ピアモデルを上回る。
コードはhttps://github.com/cheliu-computation/G2D-NeurIPS24/tree/mainにある。
関連論文リスト
- Tumor segmentation on whole slide images: training or prompting? [0.0]
3つの異なる臓器に対する腫瘍分節の文脈における視覚的プロンプトの有効性を示す。
この結果から,視覚的プロンプトは,適切なプロンプト例を用いて,広範囲な微調整を行なわずに,同等あるいは優れた性能を達成できることが判明した。
論文 参考訳(メタデータ) (2024-02-21T16:59:53Z) - Exploring Part-Informed Visual-Language Learning for Person
Re-Identification [40.725052076983516]
本稿では,視覚に基づく人物再識別作業において,部分的インフォームド言語による細粒度視覚的特徴の強化を提案する。
当社の$pi$-VLは、4つの一般的なReIDベンチマークで過去の最先端よりも大幅に改善されています。
論文 参考訳(メタデータ) (2023-08-04T23:13:49Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - BLIP: Bootstrapping Language-Image Pre-training for Unified
Vision-Language Understanding and Generation [86.4572981982407]
視覚言語理解と生成の両方に柔軟に伝達する新しい視覚言語フレームワークBLIPを提案する。
BLIPは、キャプタが合成キャプタを生成し、フィルタがノイズのあるキャプタを除去するキャプタをブートストラップすることで、ノイズの多いWebデータを効果的に活用する。
BLIPはまた、ゼロショット方式で直接ビデオ言語タスクに移行する際に、強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-01-28T12:49:48Z) - Consensus Graph Representation Learning for Better Grounded Image
Captioning [48.208119537050166]
本稿では,接地画像キャプションのためのConsensus Rraph Representation Learning framework(CGRL)を提案する。
Flickr30k Entitiesデータセットにおける対象幻覚(-9% CHAIRi)の顕著な減少とともに,本モデルの有効性を検証した。
論文 参考訳(メタデータ) (2021-12-02T04:17:01Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。