Fugu-MT 論文翻訳(概要): Large-Scale Domain-Specific Pretraining for Biomedical Vision-Language Processing

論文の概要: Large-Scale Domain-Specific Pretraining for Biomedical Vision-Language Processing

arxiv url: http://arxiv.org/abs/2303.00915v1
Date: Thu, 2 Mar 2023 02:20:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-03 16:18:08.160241
Title: Large-Scale Domain-Specific Pretraining for Biomedical Vision-Language Processing
Title（参考訳）: バイオメディカルビジョン言語処理のための大規模ドメイン特化事前学習
Authors: Sheng Zhang, Yanbo Xu, Naoto Usuyama, Jaspreet Bagga, Robert Tinn, Sam Preston, Rajesh Rao, Mu Wei, Naveen Valluri, Cliff Wong, Matthew P. Lungren, Tristan Naumann, and Hoifung Poon
Abstract要約: 中央のバイオメディカル研究論文から抽出した1500万個の図形対を用いている。我々のデータセット(PMC-15M)はMIMIC-CXRのような既存のバイオメディカル画像テキストデータセットよりも2桁大きい。我々は、検索から分類、視覚質問応答(VQA)まで、標準的なバイオメディカルイメージングタスクの実験とアブレーション研究を行っている。
参考スコア（独自算出の注目度）: 15.457950102869802
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Contrastive pretraining on parallel image-text data has attained great success in vision-language processing (VLP), as exemplified by CLIP and related methods. However, prior explorations tend to focus on general domains in the web. Biomedical images and text are rather different, but publicly available datasets are small and skew toward chest X-ray, thus severely limiting progress. In this paper, we conducted by far the largest study on biomedical VLP, using 15 million figure-caption pairs extracted from biomedical research articles in PubMed Central. Our dataset (PMC-15M) is two orders of magnitude larger than existing biomedical image-text datasets such as MIMIC-CXR, and spans a diverse range of biomedical images. The standard CLIP method is suboptimal for the biomedical domain. We propose BiomedCLIP with domain-specific adaptations tailored to biomedical VLP. We conducted extensive experiments and ablation studies on standard biomedical imaging tasks from retrieval to classification to visual question-answering (VQA). BiomedCLIP established new state of the art in a wide range of standard datasets, substantially outperformed prior VLP approaches. Surprisingly, BiomedCLIP even outperformed radiology-specific state-of-the-art models such as BioViL on radiology-specific tasks such as RSNA pneumonia detection, thus highlighting the utility in large-scale pretraining across all biomedical image types. We will release our models at https://aka.ms/biomedclip to facilitate future research in biomedical VLP.
Abstract（参考訳）: 並列画像テキストデータに対するコントラスト事前トレーニングは、CLIPと関連する手法によって実証されたビジョン言語処理(VLP)において大きな成功を収めている。しかし、事前の探索はwebの一般的なドメインに焦点を当てる傾向がある。バイオメディカル画像とテキストはかなり異なるが、公開されているデータセットは小さく、胸部x線に傾いているため、進歩をかなり制限している。本稿では,pubmed centralのバイオメディカル研究論文から抽出された1500万対のフィギュアカプセルを用いて,バイオメディカルvlpに関する最も大きな研究を行った。我々のデータセット(PMC-15M)は、MIMIC-CXRのような既存のバイオメディカル画像テキストデータセットよりも2桁大きく、多様なバイオメディカル画像にまたがる。標準のCLIP法は生物医学領域に最適である。バイオメディカルVLPに適合したドメイン特異的適応を持つバイオメディカルCLIPを提案する。検索から分類,視覚質問応答 (VQA) まで, 標準的なバイオメディカルイメージングタスクに関する広範な実験とアブレーション研究を行った。 BiomedCLIPは、幅広い標準データセットでこの技術の新たな状態を確立し、以前のVLPアプローチよりも大幅に優れていた。驚いたことに、BiomedCLIPは、RSNA肺炎検出などの放射線学固有のタスクにおいて、BioViLのような放射線学固有の最先端モデルよりも優れており、すべてのバイオメディカルイメージタイプにわたる大規模な事前トレーニングの有用性を強調している。バイオメディカルVLPの今後の研究を促進するため、我々のモデルをhttps://aka.ms/biomedclipでリリースします。

関連論文リスト

Unifying Biomedical Vision-Language Expertise: Towards a Generalist Foundation Model via Multi-CLIP Knowledge Distillation [3.9079846622301155]
我々は,Multiple Medical CLIP Knowledge Distillationによって開発されたバイオメディカル基礎モデルMMKD-CLIPを紹介する。 MMKD-CLIPは、数十億の生データに頼るのではなく、9つの最先端のドメイン固有または一般のCLIPモデルから知識を抽出する。この2段階のトレーニングパイプラインは、まず26のイメージモダリティから290万以上のバイオメディカルな画像テキストペアをCLIPスタイルで事前トレーニングし、続いて1920万以上の教師モデルから抽出された特徴ペアを使用して特徴レベルの蒸留を行った。
論文参考訳（メタデータ） (2025-06-27T18:28:57Z)
UniBiomed: A Universal Foundation Model for Grounded Biomedical Image Interpretation [8.781512619275208]
バイオメディカル画像解釈のための基礎モデルUniBiomedを紹介する。 UniBiomed は Multi-modal Large Language Model (MLLM) と Segment Anything Model (SAM) の新たな統合に基づいている UniBiomedを開発するために、画像、アノテーション、テキスト記述を10つの画像モダリティで2700万以上含む大規模なデータセットをキュレートする。
論文参考訳（メタデータ） (2025-04-30T05:51:48Z)
BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。 BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文参考訳（メタデータ） (2025-01-13T09:58:03Z)
MedMax: Mixed-Modal Instruction Tuning for Training Biomedical Assistants [28.04215981636089]
混合モーダル基礎モデルのための大規模マルチモーダルバイオメディカルインストラクションチューニングデータセットであるMedMaxについて述べる。 1.47万のインスタンスを持つMedMaxは、インターリーブ画像テキスト生成、バイオメディカル画像キャプションと生成、ビジュアルチャット、レポート理解など、さまざまなタスクを含んでいる。我々は、MedMaxデータセットの混合モーダル基礎モデルを微調整し、大幅なパフォーマンス改善を実現した。
論文参考訳（メタデータ） (2024-12-17T08:30:00Z)
μ-Bench: A Vision-Language Benchmark for Microscopy Understanding [43.27182445778988]
視覚言語モデル(VLM)は、大規模生物学的画像解析に有望なソリューションを提供する。 VLMを評価するための、標準化された、多様な、そして大規模なビジョンベンチマークが欠如している。 mu-Benchは22のバイオメディカルタスクを含む専門家によるベンチマークである。
論文参考訳（メタデータ） (2024-07-01T20:30:26Z)
A Refer-and-Ground Multimodal Large Language Model for Biomedicine [10.519866875035003]
Med-GRIT-270kデータセットは、バイオメディカルドメインに初めて専用のデータセットであり、参照と地上の会話を統合している。本稿では,このデータセットとマルチタスク・インストラクション・ラーニングを用いて,バイオメディシンのためのRefer-and-Ground Multimodal Large Language Model(BiRD)を提案する。
論文参考訳（メタデータ） (2024-06-26T07:56:17Z)
BMRetriever: Tuning Large Language Models as Better Biomedical Text Retrievers [48.21255861863282]
BMRetrieverは、バイオメディカル検索を強化するための一連の密集したレトリバーである。 BMRetrieverは強力なパラメータ効率を示し、410Mの派生型はベースラインを最大11.7倍まで上回っている。
論文参考訳（メタデータ） (2024-04-29T05:40:08Z)
Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。評価のために,GPT-4に基づく実測値CheXpromptを提案する。 LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文参考訳（メタデータ） (2024-03-12T18:12:02Z)
Multi-level biomedical NER through multi-granularity embeddings and enhanced labeling [3.8599767910528917]
本稿では,複数のモデルの強みを統合するハイブリッドアプローチを提案する。 BERTは、文脈化された単語の埋め込み、文字レベルの情報キャプチャのための事前訓練されたマルチチャネルCNN、およびテキスト内の単語間の依存関係のシーケンスラベリングとモデル化のためのBiLSTM + CRFを提供する。我々は、ベンチマークi2b2/2010データセットを用いて、F1スコア90.11を達成する。
論文参考訳（メタデータ） (2023-12-24T21:45:36Z)
BiomedJourney: Counterfactual Biomedical Image Generation by Instruction-Learning from Multimodal Patient Journeys [99.7082441544384]
本稿では,インストラクション学習によるバイオメディカル画像生成のための新しい手法であるBiomedJourneyを紹介する。我々は、GPT-4を用いて、対応する画像レポートを処理し、疾患進行の自然言語記述を生成する。得られた三重項は、反現実的なバイオメディカル画像生成のための潜伏拡散モデルを訓練するために使用される。
論文参考訳（メタデータ） (2023-10-16T18:59:31Z)
Towards Generalist Biomedical AI [28.68106423175678]
我々は,汎用バイオメディカルAIシステムの概念実証であるMed-PaLM Multimodal(Med-PaLM M)を紹介する。 Med-PaLM Mは、バイオメディカルデータを柔軟にエンコードし解釈する大規模なマルチモーダル生成モデルである。モデル生成(およびヒト)胸部X線検査の放射線学的評価を行い, モデルスケールでの性能向上を観察した。
論文参考訳（メタデータ） (2023-07-26T17:52:22Z)
LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day [85.19963303642427]
本稿では,バイオメディカルイメージのオープンな研究課題に答えられる視覚言語対話アシスタントを訓練するための費用効率のよいアプローチを提案する。モデルはまず、フィギュア・キャプションのペアを使ってバイオメディカル・ボキャブラリをアライメントし、その後、オープンエンドの会話意味論を習得する。これにより、バイオメディジンのための大規模言語と視覚アシスタントを15時間以内で(8つのA100で)訓練することができる。
論文参考訳（メタデータ） (2023-06-01T16:50:07Z)
BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文参考訳（メタデータ） (2023-05-26T17:14:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。