論文の概要: Multimodal Integrated Knowledge Transfer to Large Language Models through Preference Optimization with Biomedical Applications
- arxiv url: http://arxiv.org/abs/2505.05736v1
- Date: Fri, 09 May 2025 02:28:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.127953
- Title: Multimodal Integrated Knowledge Transfer to Large Language Models through Preference Optimization with Biomedical Applications
- Title(参考訳): バイオメディカル応用を用いた選好最適化による大規模言語モデルへの多モーダル統合知識伝達
- Authors: Da Wu, Zhanliang Wang, Quan Nguyen, Zhuoran Xu, Kai Wang,
- Abstract要約: MINT(Multimodal Integrated kNowledge Transfer)は、マルチモーダルバイオメディカルデータから、非モーダルな大規模デコーダモデルとドメイン固有の決定パターンを整合させるフレームワークである。
MINTは、高品質なマルチモーダルデータに基づいてトレーニングされた上流マルチモーダル機械学習(MML)モデルを利用して、ドメイン固有の洞察を下流のテキストオンリーまたはイメージオンリーのモデルに転送する。
- 参考スコア(独自算出の注目度): 7.751808693373747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scarcity of high-quality multimodal biomedical data limits the ability to effectively fine-tune pretrained Large Language Models (LLMs) for specialized biomedical tasks. To address this challenge, we introduce MINT (Multimodal Integrated kNowledge Transfer), a framework that aligns unimodal large decoder models with domain-specific decision patterns from multimodal biomedical data through preference optimization. While MINT supports different optimization techniques, we primarily implement it with the Odds Ratio Preference Optimization (ORPO) framework as its backbone. This strategy enables the aligned LLMs to perform predictive tasks using text-only or image-only inputs while retaining knowledge learnt from multimodal data. MINT leverages an upstream multimodal machine learning (MML) model trained on high-quality multimodal data to transfer domain-specific insights to downstream text-only or image-only LLMs. We demonstrate its effectiveness through two key applications: (1) Rare genetic disease prediction from texts, where MINT uses a multimodal encoder model, trained on facial photos and clinical notes, to generate a preference dataset for aligning a lightweight Llama 3.2-3B-Instruct. Despite relying on text input only, the MINT-derived model outperforms models trained with SFT, RAG, or DPO, and even outperforms Llama 3.1-405B-Instruct. (2) Tissue type classification using cell nucleus images, where MINT uses a vision-language foundation model as the preference generator, containing knowledge learnt from both text and histopathological images to align downstream image-only models. The resulting MINT-derived model significantly improves the performance of Llama 3.2-Vision-11B-Instruct on tissue type classification. In summary, MINT provides an effective strategy to align unimodal LLMs with high-quality multimodal expertise through preference optimization.
- Abstract(参考訳): 高品質なマルチモーダルバイオメディカルデータの不足は、特殊なバイオメディカルタスクのために、効果的に訓練済みの大規模言語モデル(LLM)を微調整する能力を制限する。
この課題に対処するために,MINT(Multimodal Integrated kNowledge Transfer)というフレームワークを導入する。
MINTは様々な最適化技術をサポートしているが、主にOdds Ratio Preference Optimization(ORPO)フレームワークをバックボーンとして実装している。
この戦略は,マルチモーダルデータから学習した知識を維持しつつ,テキストのみの入力や画像のみの入力を用いた予測タスクの実行を可能にする。
MINTは、高品質なマルチモーダルデータに基づいてトレーニングされた上流マルチモーダル機械学習(MML)モデルを利用して、ドメイン固有の洞察を下流のテキストオンリーまたはイメージオンリーのLLMに転送する。
1)テキストからの希少な遺伝的疾患予測,MINTでは,顔写真と臨床ノートに基づいて訓練されたマルチモーダルエンコーダモデルを用いて,軽量なLlama 3.2-3B-インストラクトを調整するための選好データセットを生成する。
テキスト入力のみに依存しているにもかかわらず、MINT由来のモデルはSFT、RAG、DPOで訓練されたモデルよりも優れており、Llama 3.1-405B-インストラクトよりも優れている。
2) 細胞核画像を用いた組織型分類では,MINTはテキストと病理像から学習した知識を含む視覚言語基盤モデルを選好生成源として用い,下流画像のみのモデルを整列させる。
得られたMINT由来モデルは組織型分類におけるLlama 3.2-Vision-11B-Instructのパフォーマンスを著しく改善する。
要約すると、MINT は選好最適化により、単調な LLM を高品質なマルチモーダルな専門知識と整合させる効果的な戦略を提供する。
関連論文リスト
- CLIP-IT: CLIP-based Pairing for Histology Images Classification [6.855390956571216]
視覚バックボーンモデルのトレーニングにCLIP-ITを導入し、外部ソースからの特権的なテキスト情報と組み合わせることで、組織像を分類する。
当初、モダリティペアリングのステップは、CLIPベースのモデルを使用して、組織像と外部ソースからの意味的に関連するテキストレポートデータとをマッチングし、拡張されたマルチモーダルデータセットを作成する。
パラメータ効率のよい微調整法を用いて、主(画像)と対(テキスト)のモダリティのミスアライメントを効率的に解決する。
論文 参考訳(メタデータ) (2025-04-22T18:14:43Z) - MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - VANER: Leveraging Large Language Model for Versatile and Adaptive Biomedical Named Entity Recognition [3.4923338594757674]
大型言語モデル(LLM)は、様々な種類のエンティティを抽出できるモデルを訓練するために使用することができる。
本稿では,オープンソースのLLM LLaMA2をバックボーンモデルとして利用し,異なるタイプのエンティティとデータセットを区別するための具体的な命令を設計する。
我々のモデルVANERは、パラメータの小さな分割で訓練され、従来のLLMモデルよりも大幅に優れており、LLMをベースとしたモデルとして初めて、従来の最先端のBioNERシステムの大部分を上回りました。
論文 参考訳(メタデータ) (2024-04-27T09:00:39Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - MELINDA: A Multimodal Dataset for Biomedical Experiment Method
Classification [14.820951153262685]
マルチモーダルbiomEdicaL experImeNtmethoD clAssificationのための新しいデータセット、MELINDAを紹介します。
データセットは、完全に自動化された遠隔監視方法で収集され、ラベルは既存のキュレーションデータベースから取得されます。
キャプションテキストまたは画像のみを入力として取得するユニモダルモデルを含む、さまざまな最先端のNLPおよびコンピュータビジョンモデルをベンチマークします。
論文 参考訳(メタデータ) (2020-12-16T19:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。