論文の概要: Biomedical Visual Instruction Tuning with Clinician Preference Alignment
- arxiv url: http://arxiv.org/abs/2406.13173v1
- Date: Wed, 19 Jun 2024 03:07:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 23:28:56.403504
- Title: Biomedical Visual Instruction Tuning with Clinician Preference Alignment
- Title(参考訳): 臨床適応を考慮した生体医用ビジュアルインストラクションチューニング
- Authors: Hejie Cui, Lingjun Mao, Xin Liang, Jieyu Zhang, Hui Ren, Quanzheng Li, Xiang Li, Carl Yang,
- Abstract要約: 臨床適応型バイオメディカル・ビジュアル・インストラクション・チューニング(BioMed-VITAL)を提案する。
本研究では,臨床医の嗜好を生医学的マルチモーダル基礎モデルのチューニングのための指導データの生成と選択の両段階に組み込んだデータ中心型フレームワークを提案する。
その結果,提案手法から得られた指示追従データに調整したモデルでは,オープン・ビジュアル・チャット(18.5%)と医療用VQA(81.73%)の大幅な改善が見られた。
- 参考スコア(独自算出の注目度): 38.63262042130189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in multimodal foundation models have showcased impressive capabilities in understanding and reasoning with visual and textual information. Adapting these foundation models trained for general usage to specialized domains like biomedicine requires large-scale domain-specific instruction datasets. While existing works have explored curating such datasets automatically, the resultant datasets are not explicitly aligned with domain expertise. In this work, we propose a data-centric framework, Biomedical Visual Instruction Tuning with Clinician Preference Alignment (BioMed-VITAL), that incorporates clinician preferences into both stages of generating and selecting instruction data for tuning biomedical multimodal foundation models. First, during the generation stage, we prompt the GPT-4V generator with a diverse set of clinician-selected demonstrations for preference-aligned data candidate generation. Then, during the selection phase, we train a separate selection model, which explicitly distills clinician and policy-guided model preferences into a rating function to select high-quality data for medical instruction tuning. Results show that the model tuned with the instruction-following data from our method demonstrates a significant improvement in open visual chat (18.5% relatively) and medical VQA (win rate up to 81.73%). Our instruction-following data and models are available at BioMed-VITAL.github.io.
- Abstract(参考訳): マルチモーダル基礎モデルの最近の進歩は、視覚情報やテキスト情報による理解と推論において、印象的な能力を示した。
これらの基礎モデルをバイオメディシンのような特殊なドメインに適用するには、大規模なドメイン固有の命令データセットが必要である。
既存の作業では、そのようなデータセットを自動的にキュレーションする方法が検討されているが、結果のデータセットは、ドメインの専門知識と明確に一致していない。
本研究では,臨床医の嗜好をバイオメディカル・マルチモーダル基礎モデルのチューニングのための指導データの生成と選択の両段階に組み込むデータ中心型ビオメディカル・ビジュアル・インストラクション・チューニング(BioMed-VITAL)を提案する。
まず,GPT-4Vジェネレータに,好みに整合したデータ候補生成のための多種多様なクリニック選択による実演を誘導する。
そして、選択期間中に、臨床医と政策指導を受けたモデルの選別を評価関数に明示的に蒸留して、医用指導のための高品質なデータを選択する別個の選別モデルを訓練する。
その結果,提案手法から得られた指示追従データに調整したモデルでは,オープン・ビジュアル・チャット(18.5%)と医療用VQA(81.73%)の大幅な改善が見られた。
BioMed-VITAL.github.ioでは、インストラクション追跡データとモデルが利用可能です。
関連論文リスト
- Integrating Clinical Knowledge into Concept Bottleneck Models [18.26357481872999]
概念ボトルネックモデル(CBM)は最終出力を予測する前に人間の解釈可能な概念を予測する。
臨床知識の統合によるCBMの洗練, 臨床医の意思決定プロセスとの整合性の向上を提案する。
医療画像の2つのデータセット(白血球と皮膚画像)にアプローチを検証した。
論文 参考訳(メタデータ) (2024-07-09T07:03:42Z) - STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。
STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文 参考訳(メタデータ) (2024-06-28T15:01:23Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models [17.643421997037514]
差別的, 生成的両マルチモーダル医療課題に対処する新しい枠組みを提案する。
Med-MoEの学習は、マルチモーダル医療アライメント、命令チューニングとルーティング、ドメイン固有のMoEチューニングの3つのステップで構成されている。
我々のモデルは最先端のベースラインに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2024-04-16T02:35:17Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - UniCell: Universal Cell Nucleus Classification via Prompt Learning [76.11864242047074]
ユニバーサル細胞核分類フレームワーク(UniCell)を提案する。
異なるデータセットドメインから対応する病理画像のカテゴリを均一に予測するために、新しいプロンプト学習機構を採用している。
特に,本フレームワークでは,原子核検出と分類のためのエンドツーエンドアーキテクチャを採用し,フレキシブルな予測ヘッドを用いて様々なデータセットを適応する。
論文 参考訳(メタデータ) (2024-02-20T11:50:27Z) - Exploring the Effectiveness of Instruction Tuning in Biomedical Language
Processing [19.41164870575055]
本研究では,バイオメディカル言語処理における指導指導の可能性について検討する。
約20,000ドルのインストラクション中心のサンプルからなるデータセットで訓練された包括的,命令ベースのモデルを提案する。
論文 参考訳(メタデータ) (2023-12-31T20:02:10Z) - Unsupervised pre-training of graph transformers on patient population
graphs [48.02011627390706]
異種臨床データを扱うグラフ変換器を用いたネットワークを提案する。
自己教師型, 移動学習環境において, 事前学習方式の利点を示す。
論文 参考訳(メタデータ) (2022-07-21T16:59:09Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。