Fugu-MT 論文翻訳(概要): Scaling Up Biomedical Vision-Language Models: Fine-Tuning, Instruction Tuning, and Multi-Modal Learning

論文の概要: Scaling Up Biomedical Vision-Language Models: Fine-Tuning, Instruction Tuning, and Multi-Modal Learning

arxiv url: http://arxiv.org/abs/2505.17436v1
Date: Fri, 23 May 2025 03:31:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:33.795249
Title: Scaling Up Biomedical Vision-Language Models: Fine-Tuning, Instruction Tuning, and Multi-Modal Learning
Title（参考訳）: バイオメディカルビジョンランゲージモデルのスケールアップ:ファインチューニング、インストラクションチューニング、マルチモーダルラーニング
Authors: Cheng Peng, Kai Zhang, Mengxian Lyu, Hongfang Liu, Lichao Sun, Yonghui Wu,
Abstract要約: 我々は、エンコーダデコーダに基づくトランスフォーマアーキテクチャに基づく2つのビジョン言語モデル、BiomedGPT-LargeとBiomedGPT-XLargeを開発した。 6つのマルチモーダルバイオメディカルタスクから23のベンチマークデータセットで2つのモデルを微調整した。ゼロショット学習性能とアライメント精度を評価した。
参考スコア（独自算出の注目度）: 25.982757026324474
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To advance biomedical vison-language model capabilities through scaling up, fine-tuning, and instruction tuning, develop vision-language models with improved performance in handling long text, explore strategies to efficiently adopt vision language models for diverse multi-modal biomedical tasks, and examine the zero-shot learning performance. We developed two biomedical vision language models, BiomedGPT-Large and BiomedGPT-XLarge, based on an encoder-decoder-based transformer architecture. We fine-tuned the two models on 23 benchmark datasets from 6 multi-modal biomedical tasks including one image-only task (image classification), three language-only tasks (text understanding, text summarization and question answering), and two vision-language tasks (visual question answering and image captioning). We compared the developed scaled models with our previous BiomedGPT-Base model and existing prestigious models reported in the literature. We instruction-tuned the two models using a large-scale multi-modal biomedical instruction-tuning dataset and assessed the zero-shot learning performance and alignment accuracy.
Abstract（参考訳）: 大規模化、微調整、指導チューニングによるバイオメディカルビソン言語モデル機能の向上、長文処理の性能向上によるビジョン言語モデルの開発、多様なマルチモーダルバイオメディカルタスクのためのビジョン言語モデルを効率的に採用するための戦略の探求、ゼロショット学習性能の検討。我々は、エンコーダデコーダに基づくトランスフォーマアーキテクチャに基づいて、バイオメディカルビジョン言語モデルBiomedGPT-LargeとBiomedGPT-XLargeを開発した。 1つの画像のみのタスク(画像分類)、3つの言語のみのタスク(テキスト理解、テキスト要約、質問応答)、2つの視覚言語タスク(視覚的質問応答、画像キャプション)を含む6つのマルチモーダルなバイオメディカルタスクから、23のベンチマークデータセットを微調整した。開発した大規模モデルと,これまでのBiomedGPT-Baseモデルとの比較を行った。大規模マルチモーダル・バイオメディカル・インストラクション・チューニング・データセットを用いて2つのモデルを訓練し,ゼロショット学習性能とアライメント精度を評価した。

関連論文リスト

Tevatron 2.0: Unified Document Retrieval Toolkit across Scale, Language, and Modality [74.59049806800176]
このデモペーパーでは、Tevatronツールキットの重要な特徴、学界と産業の橋渡しについて取り上げている。強い多言語・多モーダルな有効性を実現するための密集型検索器について紹介する。私たちはOmniEmbedもリリースしています。私たちの知る限り、テキスト、画像ドキュメント、ビデオ、オーディオ検索を統一する最初の埋め込みモデルです。
論文参考訳（メタデータ） (2025-05-05T08:52:49Z)
BioD2C: A Dual-level Semantic Consistency Constraint Framework for Biomedical VQA [5.840467499436581]
バイオメディカルVQAのための新しい2レベルセマンティック一貫性制約フレームワークBioD2Cを提案する。 BioD2Cは、モデルと特徴レベルの両方で二重レベルのセマンティックインタラクションアライメントを実現し、モデルが質問に基づいて視覚的特徴を適応的に学習できるようにする。本研究では,手動で修正した画像をフィルタリングし,質問と回答のペアをマルチモーダルな文脈で整列させることにより,過去のデータセットに固有のバイアスに対処する新たなデータセットであるBioVGQを確立する。
論文参考訳（メタデータ） (2025-03-04T10:39:42Z)
LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。 LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文参考訳（メタデータ） (2024-10-03T15:52:03Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。 2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
A Refer-and-Ground Multimodal Large Language Model for Biomedicine [10.519866875035003]
Med-GRIT-270kデータセットは、バイオメディカルドメインに初めて専用のデータセットであり、参照と地上の会話を統合している。本稿では,このデータセットとマルチタスク・インストラクション・ラーニングを用いて,バイオメディシンのためのRefer-and-Ground Multimodal Large Language Model(BiRD)を提案する。
論文参考訳（メタデータ） (2024-06-26T07:56:17Z)
Diversifying Knowledge Enhancement of Biomedical Language Models using Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文参考訳（メタデータ） (2023-12-21T14:26:57Z)
BioLORD-2023: Semantic Textual Representations Fusing LLM and Clinical Knowledge Graph Insights [15.952942443163474]
バイオメディカルな概念と文の高忠実度表現を得るための新しい最先端手法を提案する。これまでの技術状況よりも一貫した、実質的なパフォーマンス向上を実証する。英語のための最新のバイオメディカルモデルに加えて、50以上の言語と互換性のある多言語モデルを蒸留してリリースする。
論文参考訳（メタデータ） (2023-11-27T18:46:17Z)
Enhancing Visual Grounding and Generalization: A Multi-Task Cycle Training Approach for Vision-Language Models [41.64717254672843]
視覚接地は多モード視覚言語モデルにおいて重要な位置を占める。本稿では,VGのマルチタスクをサポートする大規模なマルチモーダリティモデルであるViLaMを提案する。 ViLaMは幅広い命令を拡張し、一般化と相互作用ポテンシャルを大幅に強化する。
論文参考訳（メタデータ） (2023-11-21T03:40:09Z)
BiomedJourney: Counterfactual Biomedical Image Generation by Instruction-Learning from Multimodal Patient Journeys [99.7082441544384]
本稿では,インストラクション学習によるバイオメディカル画像生成のための新しい手法であるBiomedJourneyを紹介する。我々は、GPT-4を用いて、対応する画像レポートを処理し、疾患進行の自然言語記述を生成する。得られた三重項は、反現実的なバイオメディカル画像生成のための潜伏拡散モデルを訓練するために使用される。
論文参考訳（メタデータ） (2023-10-16T18:59:31Z)
Customizing General-Purpose Foundation Models for Medical Report Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文参考訳（メタデータ） (2023-06-09T03:02:36Z)
LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day [85.19963303642427]
本稿では,バイオメディカルイメージのオープンな研究課題に答えられる視覚言語対話アシスタントを訓練するための費用効率のよいアプローチを提案する。モデルはまず、フィギュア・キャプションのペアを使ってバイオメディカル・ボキャブラリをアライメントし、その後、オープンエンドの会話意味論を習得する。これにより、バイオメディジンのための大規模言語と視覚アシスタントを15時間以内で(8つのA100で)訓練することができる。
論文参考訳（メタデータ） (2023-06-01T16:50:07Z)
Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文参考訳（メタデータ） (2023-01-11T16:35:33Z)
Making the Most of Text Semantics to Improve Biomedical Vision--Language Processing [17.96645738679543]
テキスト・セマンティック・モデリングは自己教師付き視覚処理におけるコントラスト学習を大幅に改善できることを示す。テキストモデリングの改善に焦点をあてた,自己教師型共同視覚言語アプローチを提案する。
論文参考訳（メタデータ） (2022-04-21T00:04:35Z)
Multi-modal Understanding and Generation for Medical Images and Text via Vision-Language Pre-Training [5.119201893752376]
本稿では,トランスフォーマーアーキテクチャと新しいマルチモーダルアテンションマスキング手法を組み合わせた医療ビジョン言語学習システム(MedViLL)を提案する。我々は,タスク固有のアーキテクチャを含む様々なベースラインに対して,MedViLLのより優れたダウンストリームタスク性能を実証的に示す。
論文参考訳（メタデータ） (2021-05-24T15:14:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。