論文の概要: Generating customized prompts for Zero-Shot Rare Event Medical Image Classification using LLM
- arxiv url: http://arxiv.org/abs/2501.16481v1
- Date: Mon, 27 Jan 2025 20:28:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:41:37.815712
- Title: Generating customized prompts for Zero-Shot Rare Event Medical Image Classification using LLM
- Title(参考訳): LLMを用いたゼロショットイベント医用画像分類のためのカスタマイズプロンプトの生成
- Authors: Payal Kamboj, Ayan Banerjee, Bin Xu, Sandeep Gupta,
- Abstract要約: 本稿では,高精度かつ文脈的に記述可能なプロンプトを生成するための,シンプルで効果的な手法を提案する。
本稿では、レアイベントに関するドメイン固有の専門知識を用いて、カスタマイズされたコンテキストに関連のあるプロンプトを生成する新しいアプローチを提案する。
本手法は, 付加的な訓練を伴わずに, 稀な事象分類を向上し, 最先端技術より優れる。
- 参考スコア(独自算出の注目度): 7.133750565011626
- License:
- Abstract: Rare events, due to their infrequent occurrences, do not have much data, and hence deep learning techniques fail in estimating the distribution for such data. Open-vocabulary models represent an innovative approach to image classification. Unlike traditional models, these models classify images into any set of categories specified with natural language prompts during inference. These prompts usually comprise manually crafted templates (e.g., 'a photo of a {}') that are filled in with the names of each category. This paper introduces a simple yet effective method for generating highly accurate and contextually descriptive prompts containing discriminative characteristics. Rare event detection, especially in medicine, is more challenging due to low inter-class and high intra-class variability. To address these, we propose a novel approach that uses domain-specific expert knowledge on rare events to generate customized and contextually relevant prompts, which are then used by large language models for image classification. Our zero-shot, privacy-preserving method enhances rare event classification without additional training, outperforming state-of-the-art techniques.
- Abstract(参考訳): 希少な出来事は、頻繁な出来事のため、あまりデータを持っていないため、深層学習技術はそのようなデータの分布を推定するのに失敗する。
オープン語彙モデルは、画像分類に対する革新的なアプローチを表している。
従来のモデルとは異なり、これらのモデルは推論中に自然言語プロンプトで指定された任意のカテゴリに分類する。
これらのプロンプトは通常、各カテゴリの名前で満たされた手作業によるテンプレート(例: {}' の写真)で構成されている。
本稿では,識別特性を含む高精度かつ文脈的に記述可能なプロンプトを生成するための,シンプルかつ効果的な手法を提案する。
希少な事象の検出は、特に医学において、クラス間およびクラス内変動の低いため、より困難である。
そこで本稿では,レアイベントに関するドメイン固有の専門知識を用いて,画像分類のための大規模言語モデルを用いて,カスタマイズされた,文脈的に関係のあるプロンプトを生成する手法を提案する。
我々のゼロショット・プライバシ保存手法は、付加的なトレーニングを伴わずに稀なイベント分類を強化し、最先端技術より優れています。
関連論文リスト
- Natural Language Induced Adversarial Images [14.415478695871604]
本稿では,自然言語による逆画像攻撃手法を提案する。
中心となる考え方は、入力プロンプトが与えられた逆画像を生成するために、テキスト・ツー・イメージモデルを活用することである。
実験の結果,"foggy","humid","stretching"などの高周波意味情報が誤りを生じやすいことがわかった。
論文 参考訳(メタデータ) (2024-10-11T08:36:07Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Improving face generation quality and prompt following with synthetic captions [57.47448046728439]
画像から正確な外観記述を生成するために,トレーニング不要のパイプラインを導入する。
次に、これらの合成キャプションを使用して、テキストから画像への拡散モデルを微調整する。
提案手法は,高品質で現実的な人間の顔を生成するモデルの能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-05-17T15:50:53Z) - Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:52:07Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [102.88033622546251]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - What does a platypus look like? Generating customized prompts for
zero-shot image classification [52.92839995002636]
この研究は、タスクドメインの明示的な知識に頼ることなく、より高精度なプロンプトを生成するシンプルな方法を導入する。
我々は,大言語モデル(LLM)に含まれる知識を活用し,画像カテゴリの重要な識別特性を含む多くの記述文を生成する。
このアプローチは、ImageNetの1パーセント以上のポイントゲインを含む、ゼロショット画像分類ベンチマークの精度を改善する。
論文 参考訳(メタデータ) (2022-09-07T17:27:08Z) - Few-Shot Hyperspectral Image Classification With Unknown Classes Using
Multitask Deep Learning [24.02524697784525]
現在のハイパースペクトル画像分類は、事前に定義された分類体系が閉じて完成していると仮定する。
オープンワールドにおける分類と再構築を同時に行う深層学習手法を提案する。
提案手法は,特に数点の文脈下で,より高精度なハイパースペクトル画像分類を実現する。
論文 参考訳(メタデータ) (2020-09-08T03:53:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。