論文の概要: AGA: An adaptive group alignment framework for structured medical cross-modal representation learning
- arxiv url: http://arxiv.org/abs/2507.23402v1
- Date: Thu, 31 Jul 2025 10:14:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.513973
- Title: AGA: An adaptive group alignment framework for structured medical cross-modal representation learning
- Title(参考訳): AGA:構造化医用クロスモーダル表現学習のための適応型グループアライメントフレームワーク
- Authors: Wei Li, Xun Gong, Jiao Li, Xiaobin Sun,
- Abstract要約: AGA(Adaptive Grouped Alignment)は,2つの医療画像とレポートから構造化セマンティクスをキャプチャする新しいフレームワークである。
AGAはスパース類似性行列に基づく双方向グルーピング機構を導入する。
AGAは、微調整とゼロショットの両方の設定で、画像テキスト検索と分類タスクで高いパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 6.558723350038461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning medical visual representations from paired images and reports is a promising direction in representation learning. However, current vision-language pretraining methods in the medical domain often simplify clinical reports into single entities or fragmented tokens, ignoring their inherent structure. In addition, contrastive learning frameworks typically depend on large quantities of hard negative samples, which is impractical for small-scale medical datasets. To tackle these challenges, we propose Adaptive Grouped Alignment (AGA), a new framework that captures structured semantics from paired medical images and reports. AGA introduces a bidirectional grouping mechanism based on a sparse similarity matrix. For each image-report pair, we compute fine-grained similarities between text tokens and image patches. Each token selects its top-matching patches to form a visual group, and each patch selects its most related tokens to form a language group. To enable adaptive grouping, we design two threshold gating modules, called Language Grouped Threshold Gate and Vision Grouped Threshold Gate, which learn grouping thresholds dynamically. Group representations are computed as weighted averages based on similarity scores. To align each token with its group representation, we introduce an Instance Aware Group Alignment loss that operates within each image-text pair, removing the need for external negatives. Finally, a Bidirectional Cross-modal Grouped Alignment module is applied to enhance fine-grained alignment between visual and linguistic group representations. Extensive experiments on public and private datasets show that our method achieves strong performance on image-text retrieval and classification tasks under both fine-tuning and zero-shot settings.
- Abstract(参考訳): 医用画像とレポートから医用視覚表現を学習することは、表現学習において有望な方向である。
しかし、現在の医療領域における視覚言語事前訓練法は、臨床報告を単一の実体や断片化されたトークンに単純化し、その固有の構造を無視していることが多い。
加えて、対照的な学習フレームワークは典型的には、小規模の医療データセットでは実用的ではない大量のハードネガティブなサンプルに依存している。
これらの課題に対処するために、我々は、ペア化された医療画像とレポートから構造化セマンティクスをキャプチャする新しいフレームワークであるAdaptive Grouped Alignment (AGA)を提案する。
AGAはスパース類似性行列に基づく双方向グルーピング機構を導入する。
各画像-レポートペアに対して、テキストトークンと画像パッチの微妙な類似性を計算する。
各トークンはトップマッチングパッチを選択してビジュアルグループを形成し、各パッチは最も関連性の高いトークンを選択して言語グループを形成する。
適応型グルーピングを実現するために,Language Grouped Threshold GateとVision Grouped Threshold Gateという2つのしきい値ゲーティングモジュールを設計した。
群表現は類似度スコアに基づいて重み付き平均として計算される。
各トークンをグループ表現と整合させるため,各イメージテキストペア内で動作可能なインスタンス認識グループアライメント損失を導入し,外部陰性さを排除した。
最後に、視覚的グループ表現と言語的グループ表現の微粒なアライメントを強化するために、双方向のクロスモーダルなグループアライメントモジュールを適用した。
パブリックデータセットとプライベートデータセットの大規模な実験により、画像テキスト検索と分類タスクにおいて、微調整とゼロショットの両方で高い性能を達成できることが示されている。
関連論文リスト
- Language-guided Medical Image Segmentation with Target-informed Multi-level Contrastive Alignments [7.9714765680840625]
ターゲット型マルチレベルコントラストアライメント(TMCA)を用いた言語誘導セグメンテーションネットワークを提案する。
TMCAは、言語誘導セグメンテーションにおけるパターンギャップを橋渡しするために、ターゲット・インフォームド・クロスモダリティアライメントときめ細かいテキストガイダンスを可能にする。
論文 参考訳(メタデータ) (2024-12-18T06:19:03Z) - Improving fine-grained understanding in image-text pre-training [37.163228122323865]
SPARse Fine-fine Contrastive Alignment (SPARC) は、画像とテキストのペアからよりきめ細かなマルチモーダル表現を事前学習する簡単な方法である。
粗い情報に依存した画像レベルのタスクに対して、競合するアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-18T10:28:45Z) - Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z) - Contrastive Grouping with Transformer for Referring Image Segmentation [23.276636282894582]
本稿では,Transformer Network (CGFormer) を用いたコントラストグルーピングというマスク分類フレームワークを提案する。
CGFormerはトークンベースのクエリとグルーピング戦略を通じて、オブジェクトレベルの情報を明示的にキャプチャする。
実験の結果,CGFormerはセグメンテーションと一般化の両設定において,最先端の手法よりも一貫して,大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-02T20:53:42Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Multi-Granularity Cross-modal Alignment for Generalized Medical Visual
Representation Learning [24.215619918283462]
本報告では, 医用画像の表現を直接学習するための新しい枠組みについて述べる。
本フレームワークは,医用画像と放射線学レポートの自然に現れる意味的対応を3段階に分けて活用する。
論文 参考訳(メタデータ) (2022-10-12T09:31:39Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Differentiated Relevances Embedding for Group-based Referring Expression
Comprehension [57.52186959089885]
表現理解の参照の鍵は、モーダルな視覚言語的関連を捉えることである。
本稿では,グループ内オブジェクト-表現ペアを異なる優先順位で適応的に割り当てるマルチグループ自己評価関連学習スキーマを提案する。
3つの標準RECベンチマーク実験により,本手法の有効性と優位性を示した。
論文 参考訳(メタデータ) (2022-03-12T09:09:48Z) - GroupViT: Semantic Segmentation Emerges from Text Supervision [82.02467579704091]
グループ化と認識は視覚的シーン理解の重要な構成要素である。
階層型グループ視覚変換器(GroupViT)を提案する。
GroupViTはセマンティック領域をグループ化し、セマンティックセグメンテーションのタスクにゼロショットで転送する。
論文 参考訳(メタデータ) (2022-02-22T18:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。