論文の概要: Increasing Textual Context Size Boosts Medical Image-Text Matching
- arxiv url: http://arxiv.org/abs/2303.13340v1
- Date: Thu, 23 Mar 2023 15:20:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 13:49:54.450678
- Title: Increasing Textual Context Size Boosts Medical Image-Text Matching
- Title(参考訳): テキストコンテキストサイズの増加は医用画像とテキストのマッチングを促進する
- Authors: Idan Glassberg, Tom Hope
- Abstract要約: 我々は、一般的な画像テキストマッチングモデルであるOpenAIのCLIPの使用を分析し、CLIPの限られたテキスト入力サイズが下流のパフォーマンスに悪影響を与えることを観察する。
そこで我々は,テキストキャプションをエンコードするシンプルなスライディングウインドウ技術を用いて,ClipMDを訓練・リリースする。
その結果、ClipMDは両方のデータセット上の他のモデルよりも大きなマージンで優れていることがわかった。
- 参考スコア(独自算出の注目度): 7.39915548392375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This short technical report demonstrates a simple technique that yields state
of the art results in medical image-text matching tasks. We analyze the use of
OpenAI's CLIP, a general image-text matching model, and observe that CLIP's
limited textual input size has negative impact on downstream performance in the
medical domain where encoding longer textual contexts is often required. We
thus train and release ClipMD, which is trained with a simple sliding window
technique to encode textual captions. ClipMD was tested on two medical
image-text datasets and compared with other image-text matching models. The
results show that ClipMD outperforms other models on both datasets by a large
margin. We make our code and pretrained model publicly available.
- Abstract(参考訳): この短い技術的報告は、医用画像テキストマッチングタスクにおいて、技術結果の状態を出力する単純なテクニックを実証する。
一般的な画像テキストマッチングモデルであるOpenAIのCLIPの使用を分析し、CLIPの限られたテキスト入力サイズが、長いテキストコンテキストのエンコードが必要な医療領域の下流のパフォーマンスに悪影響を及ぼすことを観察する。
そこで我々は,テキストキャプションをエンコードするシンプルなスライディングウィンドウ技術を用いて,ClipMDを訓練・リリースする。
ClipMDは2つの医用画像テキストデータセットでテストされ、他の画像テキストマッチングモデルと比較された。
その結果、ClipMDは両方のデータセット上の他のモデルよりも大きなマージンで優れていることがわかった。
コードと事前訓練されたモデルを公開しています。
関連論文リスト
- SimTxtSeg: Weakly-Supervised Medical Image Segmentation with Simple Text Cues [11.856041847833666]
我々は、単純なテキストキューを利用して高品質な擬似ラベルを生成する新しいフレームワーク、SimTxtSegを提案する。
大腸ポリープ・セグメンテーションとMRI脳腫瘍セグメンテーションという2つの医療画像セグメンテーションの枠組みについて検討した。
論文 参考訳(メタデータ) (2024-06-27T17:46:13Z) - MLIP: Medical Language-Image Pre-training with Masked Local
Representation Learning [20.33625985769796]
既存のコントラスト言語画像事前学習は、豊富な画像とテキストのペアをマッチングすることで、共同表現を学習することを目的としている。
本稿では,限られた画像テキストの医療データをより効率的に活用する医用言語-画像事前学習フレームワークを提案する。
評価の結果、MLIPはゼロ/フェーショット分類や少数ショット分割タスクにおいて、従来よりも大きなマージンで性能が向上していることがわかった。
論文 参考訳(メタデータ) (2024-01-03T07:54:13Z) - Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image
Captioning [13.357749288588039]
以前の作業では、教師なし設定下でのテキスト情報のみに依存して、画像キャプションのためのCLIPのクロスモーダルアソシエーション機能を活用していた。
本稿では,合成画像とテキストのペアを組み込むことにより,これらの問題に対処する新しい手法を提案する。
テキストデータに対応する画像を得るために、事前訓練されたテキスト・ツー・イメージモデルが配置され、CLIP埋め込み空間の実際の画像に対して、生成された画像の擬似特徴を最適化する。
論文 参考訳(メタデータ) (2023-12-14T12:39:29Z) - Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment [64.49170817854942]
本稿では,検出されたテキストと画像のペア間の相違点の詳細な説明を行う。
我々は、大きな言語モデルと視覚的接地モデルを活用して、与えられた画像に対して妥当なキャプションを保持するトレーニングセットを自動構築する。
また,テキストと視覚的ミスアライメントアノテーションを組み合わせた新たな人為的なテストセットも公開する。
論文 参考訳(メタデータ) (2023-12-05T20:07:34Z) - Leveraging Unpaired Data for Vision-Language Generative Models via Cycle
Consistency [47.3163261953469]
現在の視覚言語生成モデルは、最適な性能と一般化能力を達成するために、ペア画像テキストデータの拡張コーパスに依存している。
サイクル整合性の概念に基づく革新的なトレーニングパラダイムであるITITを導入する。
ITITは、分離された画像とテキストデコーダを備えたジョイントな画像テキストエンコーダで構成され、単一のフレームワークで双方向の画像テキスト生成とテキスト画像生成を可能にする。
論文 参考訳(メタデータ) (2023-10-05T17:55:19Z) - C-CLIP: Contrastive Image-Text Encoders to Close the
Descriptive-Commentative Gap [0.5439020425819]
画像とソーシャルメディア投稿のコメントの相互作用は、その全体的なメッセージを理解する上で非常に重要である。
マルチモーダル埋め込みモデル、すなわちCLIPの最近の進歩は、画像とテキストの関連性において大きな進歩をもたらした。
CLIPモデルの現在のトレーニング体制は、サイトや言語に関わらず、ソーシャルメディア上のコンテンツにマッチするには不十分である。
画像テキストエンコーダを明示的なコメント対でトレーニングすると,検索結果が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-09-06T19:03:49Z) - COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。
我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。
複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。
この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文 参考訳(メタデータ) (2023-06-15T12:29:42Z) - Text encoders bottleneck compositionality in contrastive vision-language
models [76.2406963762722]
単一ベクトルのテキスト表現からキャプションを再構築することを目的としたテキストのみのリカバリプローブを訓練する。
CLIPのテキストエンコーダは、より構成的な入力では不十分であることがわかった。
結果は、テキストのみの回復性は、構成因子をモデル化するのに必要である(しかし十分ではない)ことを示唆している。
論文 参考訳(メタデータ) (2023-05-24T08:48:44Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。