論文の概要: Augmenting Continual Learning of Diseases with LLM-Generated Visual Concepts
- arxiv url: http://arxiv.org/abs/2508.03094v1
- Date: Tue, 05 Aug 2025 05:15:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.788774
- Title: Augmenting Continual Learning of Diseases with LLM-Generated Visual Concepts
- Title(参考訳): LLM生成視覚概念による疾患の継続的な学習の促進
- Authors: Jiantao Tan, Peixian Ma, Kanghao Chen, Zhiming Dai, Ruixuan Wang,
- Abstract要約: 本稿では,大規模言語モデル(LLM)が生成する視覚概念を識別的意味指導として活用する新しいフレームワークを提案する。
本手法は,類似性に基づくフィルタリング機構を備えた視覚概念プールを動的に構築し,冗長性を防止する。
注目することで、モジュールは関連する視覚概念から意味的知識を活用でき、分類のためのクラス表現の融合した特徴を生成できる。
- 参考スコア(独自算出の注目度): 1.1883838320818292
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Continual learning is essential for medical image classification systems to adapt to dynamically evolving clinical environments. The integration of multimodal information can significantly enhance continual learning of image classes. However, while existing approaches do utilize textual modality information, they solely rely on simplistic templates with a class name, thereby neglecting richer semantic information. To address these limitations, we propose a novel framework that harnesses visual concepts generated by large language models (LLMs) as discriminative semantic guidance. Our method dynamically constructs a visual concept pool with a similarity-based filtering mechanism to prevent redundancy. Then, to integrate the concepts into the continual learning process, we employ a cross-modal image-concept attention module, coupled with an attention loss. Through attention, the module can leverage the semantic knowledge from relevant visual concepts and produce class-representative fused features for classification. Experiments on medical and natural image datasets show our method achieves state-of-the-art performance, demonstrating the effectiveness and superiority of our method. We will release the code publicly.
- Abstract(参考訳): 医用画像分類システムは, 動的に進化する臨床環境に適応するために, 継続的な学習が不可欠である。
マルチモーダル情報の統合は、画像クラスの継続的な学習を著しく向上させることができる。
しかし、既存のアプローチはテキストのモダリティ情報を利用するが、それらはクラス名を持つ単純なテンプレートにのみ依存しているため、よりリッチなセマンティック情報を無視している。
これらの制約に対処するために,大規模言語モデル(LLM)が生成する視覚概念を識別的意味指導として活用する新しいフレームワークを提案する。
本手法は,類似性に基づくフィルタリング機構を備えた視覚概念プールを動的に構築し,冗長性を防止する。
そして,この概念を連続学習プロセスに統合するために,モーダル・イメージ・コンセプト・アテンション・モジュールとアテンション・ロスを併用した。
注目することで、モジュールは関連する視覚概念から意味的知識を活用でき、分類のためのクラス表現の融合した特徴を生成できる。
医用および自然画像データセットを用いた実験により,本手法の有効性と優位性を実証し,最先端の性能を実現することができた。
コードを公開します。
関連論文リスト
- Visual and Semantic Prompt Collaboration for Generalized Zero-Shot Learning [58.73625654718187]
一般化されたゼロショット学習は、異なるクラス間で共有される意味情報の助けを借りて、目に見えないクラスと見えないクラスの両方を認識することを目的としている。
既存のアプローチでは、視覚的バックボーンをルッククラスのデータで微調整し、セマンティックな視覚的特徴を得る。
本稿では,効率的な特徴適応のためのプロンプトチューニング技術を活用した,視覚的・意味的プロンプト協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-29T10:17:57Z) - MedUnifier: Unifying Vision-and-Language Pre-training on Medical Data with Vision Generation Task using Discrete Visual Representations [13.991376926757036]
医療データに適した統合型ビジョンランゲージ事前学習フレームワークであるMedUnifierを提案する。
MedUnifierはテキスト基底画像生成機能とマルチモーダル学習戦略をシームレスに統合する。
本手法では, 視覚ベクトル量子化を用いて, クロスモーダル理解のためのより密着的な学習戦略を実現するとともに, マルチモーダル生成品質を向上させる。
論文 参考訳(メタデータ) (2025-03-02T21:09:32Z) - COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training [49.2684130383925]
視覚言語事前学習のためのCOSMOS: CrOSs-modality Self-distillationを提案する。
新たなテキストクロッピング戦略とクロスアテンションモジュールを自己教師型学習フレームワークに統合する。
さまざまなゼロショットダウンストリームタスクにおいて、以前の強いベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-12-02T18:56:06Z) - Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。
我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文 参考訳(メタデータ) (2024-09-13T10:19:10Z) - A Classifier-Free Incremental Learning Framework for Scalable Medical Image Segmentation [6.591403935303867]
本稿では,単一分類器のないネットワークにおいて,可変数のクラスをセグメント化できる新しいセグメンテーションパラダイムを提案する。
このネットワークは、コントラスト学習を用いて訓練され、簡単な解釈を容易にする識別的特徴表現を生成する。
統合ネットワーク内での様々なクラス数処理における本手法の柔軟性とその漸進学習能力について述べる。
論文 参考訳(メタデータ) (2024-05-25T19:05:07Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Knowledge Boosting: Rethinking Medical Contrastive Vision-Language
Pre-Training [6.582001681307021]
知識ブースティング・コントラスト・ビジョン・ランゲージ事前学習フレームワーク(KoBo)を提案する。
KoBoは、臨床知識を視覚言語意味一貫性の学習に統合する。
分類,セグメンテーション,検索,意味的関連性を含む8つのタスクに対するフレームワークの効果を検証する実験を行った。
論文 参考訳(メタデータ) (2023-07-14T09:38:22Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。