論文の概要: Representation Learning with Semantic-aware Instance and Sparse Token Alignments
- arxiv url: http://arxiv.org/abs/2601.08165v1
- Date: Tue, 13 Jan 2026 02:55:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.033045
- Title: Representation Learning with Semantic-aware Instance and Sparse Token Alignments
- Title(参考訳): 意味認識型インスタンスとスパーストークンアライメントを用いた表現学習
- Authors: Phuoc-Nguyen Bui, Toan Duc Nguyen, Junghyun Bum, Duc-Tai Le, Hyunseung Choo,
- Abstract要約: 本稿では,多レベルアライメントフレームワークであるRepresentation Learning with Semantic-Aware Instance and Sparse Token Alignments (SISTA)を提案する。
報告間類似性を取り入れて従来のコントラスト学習を改善し,偽陰性を排除した。
我々のフレームワークはラベル付きデータでもきめ細かなタスクを大幅に改善します。
- 参考スコア(独自算出の注目度): 2.1008762019705434
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Medical contrastive vision-language pre-training (VLP) has demonstrated significant potential in improving performance on downstream tasks. Traditional approaches typically employ contrastive learning, treating paired image-report samples as positives and unpaired ones as negatives. However, in medical datasets, there can be substantial similarities between images or reports from different patients. Rigidly treating all unpaired samples as negatives, can disrupt the underlying semantic structure and negatively impact the quality of the learned representations. In this paper, we propose a multi-level alignment framework, Representation Learning with Semantic-aware Instance and Sparse Token Alignments (SISTA) by exploiting the semantic correspondence between medical image and radiology reports at two levels, i.e., image-report and patch-word levels. Specifically, we improve the conventional contrastive learning by incorporating inter-report similarity to eliminate the false negatives and introduce a method to effectively align image patches with relevant word tokens. Experimental results demonstrate the effectiveness of the proposed framework in improving transfer performance across different datasets on three downstream tasks: image classification, image segmentation, and object detection. Notably, our framework achieves significant improvements in fine-grained tasks even with limited labeled data. Codes and pre-trained models will be made available.
- Abstract(参考訳): 医用コントラスト視覚言語前訓練(VLP)は,下流タスクの性能向上に有意な可能性を示唆している。
従来のアプローチでは、対照的な学習を採用し、ペア化されたイメージレポートのサンプルを正として、未ペアのサンプルを負として扱う。
しかし、医学的なデータセットでは、異なる患者の画像や報告の間にかなりの類似性がある可能性がある。
すべての未ペアのサンプルを負として厳格に扱い、基盤となる意味構造を乱し、学習された表現の品質に悪影響を及ぼす可能性がある。
本稿では,医用画像と放射線学レポートのセマンティック対応を利用した多段階アライメントフレームワーク,Representation Learning with Semantic-aware Instance and Sparse Token Alignments(SISTA)を提案する。
具体的には、報告間類似性を取り入れて、偽陰性を排除し、画像パッチと関連する単語トークンを効果的に整合させる手法を導入することにより、従来のコントラスト学習を改善する。
実験により、画像分類、画像分割、オブジェクト検出という3つの下流タスクにおいて、異なるデータセット間の転送性能を改善するためのフレームワークの有効性が示された。
特に,本フレームワークは,ラベル付きデータに制限がある場合でも,きめ細かなタスクの大幅な改善を実現している。
コードと事前訓練されたモデルが利用可能になる。
関連論文リスト
- Robust image representations with counterfactual contrastive learning [17.273155534515393]
因果画像合成の最近の進歩を生かした新しいフレームワークである反ファクト・コントラスト学習を導入する。
提案手法は,5つのデータセットで評価され,獲得シフトに対するロバスト性の観点から,標準的なコントラスト学習よりも優れていた。
さらなる実験により、提案フレームワークは、生物学的性間のサブグループ格差を減少させる対実的コントラスト学習で訓練されたモデルによって、獲得シフトを超えて拡張されていることが示されている。
論文 参考訳(メタデータ) (2024-09-16T15:11:00Z) - Contrastive Learning with Counterfactual Explanations for Radiology Report Generation [83.30609465252441]
放射線学レポート生成のためのtextbfCountertextbfFactual textbfExplanations-based framework (CoFE) を提案する。
反現実的な説明は、アルゴリズムによってなされた決定をどのように変えられるかを理解するための強力なツールとして、シナリオが何であるかを問うことによって役立ちます。
2つのベンチマークの実験では、反ファクト的な説明を活用することで、CoFEは意味的に一貫性があり、事実的に完全なレポートを生成することができる。
論文 参考訳(メタデータ) (2024-07-19T17:24:25Z) - LeOCLR: Leveraging Original Images for Contrastive Learning of Visual Representations [4.680881326162484]
画像分類やオブジェクト検出などの下流タスクにおける教師あり学習よりも優れている。
対照的な学習における一般的な強化手法は、ランダムな収穫とそれに続くリサイズである。
本稿では,新しいインスタンス識別手法と適応型損失関数を用いたフレームワークであるLeOCLRを紹介する。
論文 参考訳(メタデータ) (2024-03-11T15:33:32Z) - Rethinking Semi-Supervised Medical Image Segmentation: A
Variance-Reduction Perspective [51.70661197256033]
医用画像セグメンテーションのための階層化グループ理論を用いた半教師付きコントラスト学習フレームワークARCOを提案する。
まず、分散還元推定の概念を用いてARCOを構築することを提案し、特定の分散還元技術が画素/ボクセルレベルのセグメンテーションタスクにおいて特に有用であることを示す。
5つの2D/3D医療データセットと3つのセマンティックセグメンテーションデータセットのラベル設定が異なる8つのベンチマークで、我々のアプローチを実験的に検証する。
論文 参考訳(メタデータ) (2023-02-03T13:50:25Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Cross-level Contrastive Learning and Consistency Constraint for
Semi-supervised Medical Image Segmentation [46.678279106837294]
半教師型医用画像セグメンテーションにおける局所特徴の表現能力を高めるためのクロスレベルコンストラシティブ学習手法を提案する。
クロスレベルなコントラスト学習と一貫性制約の助けを借りて、非ラベル付きデータを効果的に探索してセグメンテーション性能を向上させることができる。
論文 参考訳(メタデータ) (2022-02-08T15:12:11Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Positional Contrastive Learning for Volumetric Medical Image
Segmentation [13.086140606803408]
コントラストデータペアを生成するための新しい位置コントラスト学習フレームワークを提案する。
提案手法は,半教師付き設定と移動学習の両方において既存の手法と比較して,セグメンテーション性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-06-16T22:15:28Z) - Incremental False Negative Detection for Contrastive Learning [95.68120675114878]
本稿では,自己指導型コントラスト学習のための新たな偽陰性検出手法を提案する。
対照的な学習では、検出された偽陰性を明示的に除去する2つの戦略について議論する。
提案手法は,制限された計算内での複数のベンチマークにおいて,他の自己教師付きコントラスト学習フレームワークよりも優れる。
論文 参考訳(メタデータ) (2021-06-07T15:29:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。