論文の概要: On Domain-Specific Post-Training for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2411.19930v1
- Date: Fri, 29 Nov 2024 18:42:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:23:06.778851
- Title: On Domain-Specific Post-Training for Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルのドメイン特化後訓練について
- Authors: Daixuan Cheng, Shaohan Huang, Ziyu Zhu, Xintong Zhang, Wayne Xin Zhao, Zhongzhi Luan, Bo Dai, Zhenliang Zhang,
- Abstract要約: ドメイン固有の画像キャプチャーペアから多様な視覚的命令タスクを生成する視覚的命令合成器を開発した。
ドメイン固有のポストトレーニングにおけるタスクの多様性を高めるために、単段階トレーニングパイプラインを適用します。
バイオメディシンと食品の2つの領域で、異なるソースとスケールのMLLMの訓練後実験を行う。
- 参考スコア(独自算出の注目度): 72.67107077850939
- License:
- Abstract: Recent years have witnessed the rapid development of general multimodal large language models (MLLMs). However, adapting general MLLMs to specific domains, such as scientific fields and industrial applications, remains less explored. This paper systematically investigates domain adaptation of MLLMs through post-training, focusing on data synthesis, training pipelines, and task evaluation. (1) Data Synthesis: Using open-source models, we develop a visual instruction synthesizer that effectively generates diverse visual instruction tasks from domain-specific image-caption pairs. Our synthetic tasks surpass those generated by manual rules, GPT-4, and GPT-4V in enhancing the domain-specific performance of MLLMs. (2) Training Pipeline: While the two-stage training--initially on image-caption pairs followed by visual instruction tasks--is commonly adopted for developing general MLLMs, we apply a single-stage training pipeline to enhance task diversity for domain-specific post-training. (3) Task Evaluation: We conduct experiments in two domains, biomedicine and food, by post-training MLLMs of different sources and scales (e.g., Qwen2-VL-2B, LLaVA-v1.6-8B, Llama-3.2-11B), and then evaluating MLLM performance on various domain-specific tasks. To support further research in MLLM domain adaptation, we will open-source our implementations.
- Abstract(参考訳): 近年、MLLM(General Multimodal Large Language Model)の急速な発展が見られた。
しかし、科学分野や産業分野など特定の分野への一般MLLMの適用については、まだ検討されていない。
本稿では,データ合成,トレーニングパイプライン,タスク評価などに着目し,MLLMのドメイン適応を系統的に検討する。
1)データ合成: オープンソースモデルを用いて, ドメイン固有のイメージ・キャプチャー・ペアから多様な視覚的命令タスクを効果的に生成するビジュアル・インストラクション・シンセサイザーを開発する。
我々の合成タスクは,MLLMのドメイン固有性能を高めるために,手動ルール,GPT-4,GPT-4Vで生成されたものを上回る。
2)訓練パイプライン: イメージキャプションペアと視覚指導タスクを併用した2段階訓練は, 一般的なMLLMの開発に一般的に採用されているが, 単段階訓練パイプラインを適用して, ドメイン固有のポストトレーニングのタスク多様性を高める。
課題評価: バイオメディシンと食品の2つの領域において, 異なるソースとスケールのMLLM(例えば, Qwen2-VL-2B, LLaVA-v1.6-8B, Llama-3.2-11B)を訓練し, 様々な領域固有のタスクでMLLMの性能を評価する。
MLLMドメイン適応のさらなる研究を支援するため、我々は実装をオープンソース化する。
関連論文リスト
- FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [64.50893177169996]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルなヘテロジニアスシナリオにおけるMLLMのファインチューニングにおける様々なダウンストリームタスクを評価するためのベンチマークを提案する。
我々は,2つのモダリティに依存しない戦略とともに,4つの代表的FL手法を統合する汎用FedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。
一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。
MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2024-07-11T15:08:11Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - Visual Question Answering Instruction: Unlocking Multimodal Large
Language Model To Domain-Specific Visual Multitasks [0.8192907805418583]
VQA-IN(Visual Question Answering Instruction)と呼ばれる,ドメイン固有の視覚および視覚のデータセットを統一された質問応答形式に変換する手法を開発した。
提案手法は,マルチタスク方式で視覚言語タスクの性能を維持しつつ,ドメイン固有の視覚タスクのスコアを高く評価する。
論文 参考訳(メタデータ) (2024-02-13T10:40:53Z) - A Framework to Implement 1+N Multi-task Fine-tuning Pattern in LLMs
Using the CGC-LORA Algorithm [7.521690071464451]
大規模言語モデル (LLM) において, 1 + N mutli-task の微調整パターンを実装する統一フレームワークを提案する。
我々の研究は、MPL(CGC)とPEFT(LoRA)の両方の利点を享受することを目的としている。
論文 参考訳(メタデータ) (2024-01-22T07:58:31Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。