Fugu-MT 論文翻訳(概要): Pseudo-Prompt Generating in Pre-trained Vision-Language Models for Multi-Label Medical Image Classification

論文の概要: Pseudo-Prompt Generating in Pre-trained Vision-Language Models for Multi-Label Medical Image Classification

arxiv url: http://arxiv.org/abs/2405.06468v3
Date: Fri, 13 Sep 2024 16:44:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-16 23:07:35.912903
Title: Pseudo-Prompt Generating in Pre-trained Vision-Language Models for Multi-Label Medical Image Classification
Title（参考訳）: マルチラベル医用画像分類のための事前学習型視覚言語モデルにおける擬似プロンプト
Authors: Yaoqin Ye, Junjie Zhang, Hongwei Shi,
Abstract要約: 自然言語処理(NLP)におけるテキスト生成による新しいプロンプト生成手法を提案する。提案手法はPsPG (Pseudo-Prompt Generating) と呼ばれ,マルチモーダル特徴の事前知識を活かした手法である。 RNNベースのデコーダを特徴とするPSPGは、クラス調整された埋め込みベクター、すなわち擬似プロンプトを自動生成する。
参考スコア（独自算出の注目度）: 3.1029532920699934
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The task of medical image recognition is notably complicated by the presence of varied and multiple pathological indications, presenting a unique challenge in multi-label classification with unseen labels. This complexity underlines the need for computer-aided diagnosis methods employing multi-label zero-shot learning. Recent advancements in pre-trained vision-language models (VLMs) have showcased notable zero-shot classification abilities on medical images. However, these methods have limitations on leveraging extensive pre-trained knowledge from broader image datasets, and often depend on manual prompt construction by expert radiologists. By automating the process of prompt tuning, prompt learning techniques have emerged as an efficient way to adapt VLMs to downstream tasks. Yet, existing CoOp-based strategies fall short in performing class-specific prompts on unseen categories, limiting generalizability in fine-grained scenarios. To overcome these constraints, we introduce a novel prompt generation approach inspirited by text generation in natural language processing (NLP). Our method, named Pseudo-Prompt Generating (PsPG), capitalizes on the priori knowledge of multi-modal features. Featuring a RNN-based decoder, PsPG autoregressively generates class-tailored embedding vectors, i.e., pseudo-prompts. Comparative evaluations on various multi-label chest radiograph datasets affirm the superiority of our approach against leading medical vision-language and multi-label prompt learning methods. The source code is available at https://github.com/fallingnight/PsPG
Abstract（参考訳）: 医用画像認識の課題は,多種多様な病理所見の存在によって明らかに複雑化しており,未確認ラベルを用いた多ラベル分類において特異な課題が提示されている。この複雑さは、マルチラベルゼロショット学習を用いたコンピュータ支援診断手法の必要性を浮き彫りにする。近年,前訓練型視覚言語モデル(VLM)の進歩は,医用画像に顕著なゼロショット分類能力を示した。しかしながら、これらの手法は、より広い画像データセットからの広範な事前訓練された知識の活用に制限があり、しばしば専門の放射線学者による手動のプロンプト構築に依存している。即時チューニングのプロセスを自動化することで、VLMを下流タスクに適応させる効率的な方法として、即時学習技術が登場した。しかし、既存のCoOpベースの戦略は、未確認のカテゴリでクラス固有のプロンプトを実行するに足りず、きめ細かいシナリオでの一般化性を制限する。これらの制約を克服するために,自然言語処理(NLP)におけるテキスト生成によって実現される新しいプロンプト生成手法を提案する。提案手法はPsPG (Pseudo-Prompt Generating) と呼ばれ,マルチモーダル特徴の事前知識を活かした手法である。 RNNベースのデコーダを備えたPsPGは、クラス調整された埋め込みベクター、すなわち擬似プロンプトを自動生成する。各種マルチラベル胸部X線写真データセットの比較評価により,先進的な医用ビジョン言語およびマルチラベル・プロンプト学習法に対するアプローチの優位性が確認された。ソースコードはhttps://github.com/fallingnight/PsPGで入手できる。

関連論文リスト

GMAT: Grounded Multi-Agent Clinical Description Generation for Text Encoder in Vision-Language MIL for Whole Slide Image Classification [4.922864692096282]
多重インスタンス学習(MIL)は、全スライド画像(WSI)分類における主要なアプローチである。最近の研究は、医療知識を取り入れたビジョン言語モデル(VLM)をMILパイプラインに導入している。本稿では2つの重要なコントリビューションを持つビジョン言語MILフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-02T09:59:39Z)
Vocabulary-free Fine-grained Visual Recognition via Enriched Contextually Grounded Vision-Language Model [52.01031460230826]
伝統的なアプローチは固定語彙と閉集合分類パラダイムに大きく依存している。近年の研究では、大規模言語モデルと視覚言語モデル(VLM)を組み合わせることで、オープンセット認識が可能であることが実証されている。そこで本研究では,精密な視覚認識のための最先端の手法であるEnriched-FineRを提案する。
論文参考訳（メタデータ） (2025-07-30T20:06:01Z)
Instance-Aware Graph Prompt Learning [71.26108600288308]
本稿では,インスタンス対応グラフプロンプト学習(IA-GPL)について紹介する。このプロセスでは、軽量アーキテクチャを使用して各インスタンスの中間プロンプトを生成する。複数のデータセットと設定で実施された実験は、最先端のベースラインと比較して、IA-GPLの優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-11-26T18:38:38Z)
Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文参考訳（メタデータ） (2024-08-29T12:34:01Z)
XCoOp: Explainable Prompt Learning for Computer-Aided Diagnosis via Concept-guided Context Optimization [4.634780391920529]
本稿では,画像,学習可能なプロンプト,臨床概念に基づくプロンプトのセマンティクスを整合させることにより,医療知識を活用する新しい説明可能なプロンプト学習フレームワークを提案する。我々のフレームワークは、大きな言語モデルから知識を引き出すことによって、価値ある概念アノテーションの欠如に対処する。提案手法は,XAIにおける基礎モデルの有効性に光を当て,優れた診断性能,柔軟性,解釈可能性を実現する。
論文参考訳（メタデータ） (2024-03-14T14:02:01Z)
Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-02T13:43:32Z)
Text as Image: Learning Transferable Adapter for Multi-Label Classification [13.11583340598517]
マルチラベル命令追従テキスト生成に大規模言語モデルを用いるための効果的なアプローチを提案する。このように、ビジュアルラベル認識のための完全に自動化されたパイプラインは、手動のデータに頼ることなく開発される。
論文参考訳（メタデータ） (2023-12-07T09:22:20Z)
Open-Ended Medical Visual Question Answering Through Prefix Tuning of Language Models [42.360431316298204]
我々は、VQAのオープン化に重点を置いており、近年の言語モデルの発展によって、VQAを生成タスクと見なされている。医療画像を言語モデルに適切に伝達するために,抽出した視覚的特徴を学習可能なトークンの集合にマッピングするネットワークを開発する。我々は、Slake、OVQA、PathVQAといった主要な医療用VQAベンチマークに対するアプローチを評価した。
論文参考訳（メタデータ） (2023-03-10T15:17:22Z)
Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文参考訳（メタデータ） (2023-01-11T16:35:33Z)
Open-Vocabulary Multi-Label Classification via Multi-modal Knowledge Transfer [55.885555581039895]
マルチラベルゼロショット学習(ML-ZSL)は、事前訓練されたテキストラベル埋め込みによる知識の伝達に焦点を当てている。マルチラベル分類のためのMKT(Multimodal Knowledge Transfer)と呼ばれる新しいオープン語彙フレームワークを提案する。
論文参考訳（メタデータ） (2022-07-05T08:32:18Z)
Multi-Modal Few-Shot Object Detection with Meta-Learning-Based Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文参考訳（メタデータ） (2022-04-16T16:45:06Z)
HealthPrompt: A Zero-shot Learning Paradigm for Clinical Natural Language Processing [3.762895631262445]
われわれはHealthPromptという新しいプロンプトベースのNLPフレームワークを開発した。本研究は,6種類のPLMを用いたHealthPromptの詳細な分析を行った。本実験は,臨床テキストのコンテキストを効果的に把握し,トレーニングデータなしで極めて良好に動作できることを証明した。
論文参考訳（メタデータ） (2022-03-09T21:44:28Z)
Rethinking Generative Zero-Shot Learning: An Ensemble Learning Perspective for Recognising Visual Patches [52.67723703088284]
我々はMPGAN(Multi-patch Generative Adversarial Nets)と呼ばれる新しいフレームワークを提案する。 MPGANは、新しい重み付き投票戦略で、ローカルパッチ機能とラベルが見えないクラスを合成する。 MPGANは最先端の手法よりもはるかに精度が高い。
論文参考訳（メタデータ） (2020-07-27T05:49:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。