論文の概要: FaNe: Towards Fine-Grained Cross-Modal Contrast with False-Negative Reduction and Text-Conditioned Sparse Attention
- arxiv url: http://arxiv.org/abs/2511.12215v1
- Date: Sat, 15 Nov 2025 13:37:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.681165
- Title: FaNe: Towards Fine-Grained Cross-Modal Contrast with False-Negative Reduction and Text-Conditioned Sparse Attention
- Title(参考訳): FaNe: False-Negative reduction と Text-Conditioned Sparse Attention による細粒クロスモーダルコントラストの実現
- Authors: Peng Zhang, Zhihui Lai, Wenting Chen, Xu Wu, Heng Kong,
- Abstract要約: False Negatives (FaNe) は意味論的に類似したテキストによって誘導され、微粒なクロスモーダルアライメントが不十分である。
FaNeは画像分類、オブジェクト検出、セマンティックセグメンテーションにまたがって最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 19.49398094732301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical vision-language pre-training (VLP) offers significant potential for advancing medical image understanding by leveraging paired image-report data. However, existing methods are limited by Fa}lse Negatives (FaNe) induced by semantically similar texts and insufficient fine-grained cross-modal alignment. To address these limitations, we propose FaNe, a semantic-enhanced VLP framework. To mitigate false negatives, we introduce a semantic-aware positive pair mining strategy based on text-text similarity with adaptive normalization. Furthermore, we design a text-conditioned sparse attention pooling module to enable fine-grained image-text alignment through localized visual representations guided by textual cues. To strengthen intra-modal discrimination, we develop a hard-negative aware contrastive loss that adaptively reweights semantically similar negatives. Extensive experiments on five downstream medical imaging benchmarks demonstrate that FaNe achieves state-of-the-art performance across image classification, object detection, and semantic segmentation, validating the effectiveness of our framework.
- Abstract(参考訳): 医用視覚言語事前訓練(VLP)は, 対画像レポートデータを活用することにより, 医用画像理解の進展に有意な可能性を秘めている。
しかし、既存の手法は、意味論的に類似したテキストによって誘導されるFa}lse Negatives (FaNe) によって制限される。
これらの制約に対処するため、我々は意味を拡張したVLPフレームワークであるFaNeを提案する。
偽陰性を緩和するため,テキストと適応正規化の類似性に基づく意味認識型正のペアマイニング戦略を導入する。
さらに,テキストキューで案内される局所的な視覚表現を通した微細な画像テキストアライメントを実現するために,テキスト条件付きスパースアテンションプーリングモジュールを設計する。
モーダル内識別を強化するために, 意味論的に類似した否定を適応的に重み付けする, ハードネガティブなコントラスト損失を発達させる。
5つの下流医療画像ベンチマークによる大規模な実験により、FaNeは画像分類、オブジェクト検出、セマンティックセグメンテーションにまたがる最先端のパフォーマンスを達成し、我々のフレームワークの有効性を検証した。
関連論文リスト
- TRUST: Leveraging Text Robustness for Unsupervised Domain Adaptation [9.906359339999039]
視覚モデルの適応を導くために,言語モダリティの堅牢性を活用する新しいUDAアプローチを導入する。
視覚と言語の特徴空間を整合させるマルチモーダルなソフトコントラスト学習損失を提案する。
我々のアプローチは従来の手法よりも優れており、従来の(DomainNet)ドメインシフトと複雑な(GeoNet)ドメインシフトに新しい最先端の設定を施しています。
論文 参考訳(メタデータ) (2025-08-08T16:51:44Z) - Language-guided Medical Image Segmentation with Target-informed Multi-level Contrastive Alignments [7.9714765680840625]
ターゲット型マルチレベルコントラストアライメント(TMCA)を用いた言語誘導セグメンテーションネットワークを提案する。
TMCAは、言語誘導セグメンテーションにおけるパターンギャップを橋渡しするために、ターゲット・インフォームド・クロスモダリティアライメントときめ細かいテキストガイダンスを可能にする。
論文 参考訳(メタデータ) (2024-12-18T06:19:03Z) - Robust image representations with counterfactual contrastive learning [17.273155534515393]
因果画像合成の最近の進歩を生かした新しいフレームワークである反ファクト・コントラスト学習を導入する。
提案手法は,5つのデータセットで評価され,獲得シフトに対するロバスト性の観点から,標準的なコントラスト学習よりも優れていた。
さらなる実験により、提案フレームワークは、生物学的性間のサブグループ格差を減少させる対実的コントラスト学習で訓練されたモデルによって、獲得シフトを超えて拡張されていることが示されている。
論文 参考訳(メタデータ) (2024-09-16T15:11:00Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Marginal Contrastive Correspondence for Guided Image Generation [58.0605433671196]
例題に基づく画像翻訳は、条件入力と2つの異なる領域からの例題間の密接な対応を確立する。
既存の作業は、2つのドメインにまたがる機能的距離を最小化することで、ドメイン間の通信を暗黙的に構築する。
本稿では,MCL-Net(Marginal Contrastive Learning Network)の設計を行った。
論文 参考訳(メタデータ) (2022-04-01T13:55:44Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Content-Preserving Unpaired Translation from Simulated to Realistic
Ultrasound Images [12.136874314973689]
本稿では,シミュレーション画像と実画像の出現ギャップを橋渡しする新しい画像翻訳フレームワークを提案する。
この目的を達成するために,シミュレートされた画像とセマンティックセグメンテーションを併用する。
論文 参考訳(メタデータ) (2021-03-09T22:35:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。