論文の概要: DermaSynth: Rich Synthetic Image-Text Pairs Using Open Access Dermatology Datasets
- arxiv url: http://arxiv.org/abs/2502.00196v1
- Date: Fri, 31 Jan 2025 22:26:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:06:10.437668
- Title: DermaSynth: Rich Synthetic Image-Text Pairs Using Open Access Dermatology Datasets
- Title(参考訳): DermaSynth:オープンアクセス皮膚科学データセットを用いたリッチ合成画像テキストペア
- Authors: Abdurrahim Yilmaz, Furkan Yuceyalcin, Ece Gokyayla, Donghee Choi, Ozan Erdem Ali Anil Demircali, Rahmetullah Varol, Ufuk Gorkem Kirabali, Gulsum Gencoglan, Joram M. Posma, Burak Temelkuran,
- Abstract要約: Derma Synthは、45,205の画像からキュレートされた92,020の合成画像-テキストペアのデータセットである。
Gemini 2.0を用いた最先端の視覚大言語モデルを利用して、多種多様なリッチな合成テキストを生成する。
- 参考スコア(独自算出の注目度): 0.9365295908188248
- License:
- Abstract: A major barrier to developing vision large language models (LLMs) in dermatology is the lack of large image--text pairs dataset. We introduce DermaSynth, a dataset comprising of 92,020 synthetic image--text pairs curated from 45,205 images (13,568 clinical and 35,561 dermatoscopic) for dermatology-related clinical tasks. Leveraging state-of-the-art LLMs, using Gemini 2.0, we used clinically related prompts and self-instruct method to generate diverse and rich synthetic texts. Metadata of the datasets were incorporated into the input prompts by targeting to reduce potential hallucinations. The resulting dataset builds upon open access dermatological image repositories (DERM12345, BCN20000, PAD-UFES-20, SCIN, and HIBA) that have permissive CC-BY-4.0 licenses. We also fine-tuned a preliminary Llama-3.2-11B-Vision-Instruct model, DermatoLlama 1.0, on 5,000 samples. We anticipate this dataset to support and accelerate AI research in dermatology. Data and code underlying this work are accessible at https://github.com/abdurrahimyilmaz/DermaSynth.
- Abstract(参考訳): 皮膚科における視覚大言語モデル(LLM)の開発における大きな障壁は、大規模な画像テキストペアデータセットの欠如である。皮膚科関連臨床タスクのための45,205画像(13,568例,35,561例)から算出した92,020の合成画像テキストペアからなるデータセットであるDermaSynthを紹介する。
Gemini 2.0を用いて, 臨床関連プロンプトと自己指示法を用いて多種多様な合成テキストを生成する。
データセットのメタデータを入力プロンプトに組み込んで、潜在的な幻覚を減らす。
得られたデータセットは、CC-BY-4.0ライセンスを許容するオープンアクセス皮膚画像リポジトリ(DERM12345, BCN20000, PAD-UFES-20, SCIN, HIBA)上に構築される。
Llama-3.2-11B-Vision-Instruct モデルである DermatoLlama 1.0 を5,000サンプルで微調整した。
我々はこのデータセットが皮膚科学におけるAI研究を支援し加速することを期待している。
この作業の基盤となるデータとコードはhttps://github.com/abdurrahimyilmaz/DermaSynth.comでアクセスできる。
関連論文リスト
- Cancer-Net SCa-Synth: An Open Access Synthetically Generated 2D Skin Lesion Dataset for Skin Cancer Classification [65.83291923029985]
アメリカ合衆国では、皮膚がんが最も一般的に診断されるがんと位置づけられており、公衆衛生上の問題となっている。
データセットのキュレーションとディープラーニングの進歩により、皮膚がんの迅速かつ正確な検出が期待できる。
Cancer-Net SCa- Synthは、皮膚がん分類のためのオープンアクセス合成された2D皮膚病変データセットである。
論文 参考訳(メタデータ) (2024-11-08T02:04:21Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - MedSyn: LLM-based Synthetic Medical Text Generation Framework [0.27376226833693]
MedSynは,大規模言語モデルと医療知識グラフを統合する新しい医用テキスト生成フレームワークである。
我々は,MKGを用いて先行医療情報を抽出し,GPT-4および微調整LLaMAモデルを用いた合成臨床ノートを生成する。
本研究は, 合成データは, 合成データのない設定と比較して, 重要かつ困難な符号の分類精度を最大17.8%向上させることができることを示唆している。
論文 参考訳(メタデータ) (2024-08-04T15:07:44Z) - SkinCAP: A Multi-modal Dermatology Dataset Annotated with Rich Medical Captions [17.803181915074706]
SkinCAPは、Fitzpatrick 17k皮膚疾患データセットとDiverse Dermatology Imagesデータセットからソースされた4,000の画像で構成されている。
特に、SkinCAPは世界初のそのようなデータセットであり、https://huggingface.co/datasets/joshuachou/SkinCAPで公開されている。
論文 参考訳(メタデータ) (2024-05-28T09:48:23Z) - SynthCLIP: Are We Ready for a Fully Synthetic CLIP Training? [57.42016037768947]
完全合成テキストイメージペアに基づいてトレーニングされたCLIPモデルであるSynthCLIPを提案する。
我々は人間の介入なしに画像と対応するキャプションの合成データセットを大規模に生成する。
論文 参考訳(メタデータ) (2024-02-02T18:59:58Z) - Utilizing Synthetic Data for Medical Vision-Language Pre-training: Bypassing the Need for Real Images [9.86468773903613]
Medical Vision-Language Pre-Trainingは、医用画像とペアの放射線学レポートから、共同で表現を学習する。
我々は、本物の医療報告から生成された、本物の医療画像と、その合成等価物とを置き換える。
我々の経験的評価は、合成データによって達成された性能が実画像と同等かそれ以上であることを示している。
論文 参考訳(メタデータ) (2023-10-10T21:29:41Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - covLLM: Large Language Models for COVID-19 Biomedical Literature [0.0]
新型コロナウイルス(COVID-19)のパンデミックは、新型コロナウイルス研究の爆発にもかかわらず、米国で11万人の死者を出した。
一つの理由は、患者に圧倒された臨床医が、新型コロナウイルスの感染率を抑えるのに苦労しているからだ。
潜在的な解決策は、大規模な言語モデルを用いて、新型コロナウイルスの文献を評価するツールを開発することである。
論文 参考訳(メタデータ) (2023-06-08T04:08:32Z) - WSSS4LUAD: Grand Challenge on Weakly-supervised Tissue Semantic
Segmentation for Lung Adenocarcinoma [51.50991881342181]
この課題には10,091個のパッチレベルのアノテーションと1300万以上のラベル付きピクセルが含まれる。
第一位チームは0.8413mIoUを達成した(腫瘍:0.8389、ストーマ:0.7931、正常:0.8919)。
論文 参考訳(メタデータ) (2022-04-13T15:27:05Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。