論文の概要: On Domain-Specific Post-Training for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2411.19930v1
- Date: Fri, 29 Nov 2024 18:42:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 20:28:08.11162
- Title: On Domain-Specific Post-Training for Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルのドメイン特化後訓練について
- Authors: Daixuan Cheng, Shaohan Huang, Ziyu Zhu, Xintong Zhang, Wayne Xin Zhao, Zhongzhi Luan, Bo Dai, Zhenliang Zhang,
- Abstract要約: ドメイン固有の画像キャプチャーペアから多様な視覚的命令タスクを生成する視覚的命令合成器を開発した。
ドメイン固有のポストトレーニングにおけるタスクの多様性を高めるために、単段階トレーニングパイプラインを適用します。
バイオメディシンと食品の2つの領域で、異なるソースとスケールのMLLMの訓練後実験を行う。
- 参考スコア(独自算出の注目度): 72.67107077850939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed the rapid development of general multimodal large language models (MLLMs). However, adapting general MLLMs to specific domains, such as scientific fields and industrial applications, remains less explored. This paper systematically investigates domain adaptation of MLLMs through post-training, focusing on data synthesis, training pipelines, and task evaluation. (1) Data Synthesis: Using open-source models, we develop a visual instruction synthesizer that effectively generates diverse visual instruction tasks from domain-specific image-caption pairs. Our synthetic tasks surpass those generated by manual rules, GPT-4, and GPT-4V in enhancing the domain-specific performance of MLLMs. (2) Training Pipeline: While the two-stage training--initially on image-caption pairs followed by visual instruction tasks--is commonly adopted for developing general MLLMs, we apply a single-stage training pipeline to enhance task diversity for domain-specific post-training. (3) Task Evaluation: We conduct experiments in two domains, biomedicine and food, by post-training MLLMs of different sources and scales (e.g., Qwen2-VL-2B, LLaVA-v1.6-8B, Llama-3.2-11B), and then evaluating MLLM performance on various domain-specific tasks. To support further research in MLLM domain adaptation, we will open-source our implementations.
- Abstract(参考訳): 近年、MLLM(General Multimodal Large Language Model)の急速な発展が見られた。
しかし、科学分野や産業分野など特定の分野への一般MLLMの適用については、まだ検討されていない。
本稿では,データ合成,トレーニングパイプライン,タスク評価などに着目し,MLLMのドメイン適応を系統的に検討する。
1)データ合成: オープンソースモデルを用いて, ドメイン固有のイメージ・キャプチャー・ペアから多様な視覚的命令タスクを効果的に生成するビジュアル・インストラクション・シンセサイザーを開発する。
我々の合成タスクは,MLLMのドメイン固有性能を高めるために,手動ルール,GPT-4,GPT-4Vで生成されたものを上回る。
2)訓練パイプライン: イメージキャプションペアと視覚指導タスクを併用した2段階訓練は, 一般的なMLLMの開発に一般的に採用されているが, 単段階訓練パイプラインを適用して, ドメイン固有のポストトレーニングのタスク多様性を高める。
課題評価: バイオメディシンと食品の2つの領域において, 異なるソースとスケールのMLLM(例えば, Qwen2-VL-2B, LLaVA-v1.6-8B, Llama-3.2-11B)を訓練し, 様々な領域固有のタスクでMLLMの性能を評価する。
MLLMドメイン適応のさらなる研究を支援するため、我々は実装をオープンソース化する。
関連論文リスト
- Keeping Yourself is Important in Downstream Tuning Multimodal Large Language Model [63.14883657299359]
MLLM(Multi-modal Large Language Models)は、視覚的および言語的推論を統合して、画像キャプションや視覚的質問応答といった複雑なタスクに対処する。
ダウンストリームタスクのためのMLLMのチューニングには,2つの重要な課題がある。タスク-Expert – 事前トレーニングとターゲットデータセット間の分散シフトによってターゲットのパフォーマンスが制限される。
論文 参考訳(メタデータ) (2025-03-06T15:29:13Z) - From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons [85.99268361356832]
一般身体エージェント(GEA)にMLLMを適用するプロセスを紹介する。
GEAは、多体アクショントークンーザを通じて、さまざまなドメインにまたがって自分自身をグラウンド化できる単一の統一モデルである。
本研究は,汎用エージェント構築のためのクロスドメインデータとオンラインRLを用いたトレーニングの重要性を明らかにした。
論文 参考訳(メタデータ) (2024-12-11T15:06:25Z) - Way to Specialist: Closing Loop Between Specialized LLM and Evolving Domain Knowledge Graph [66.98553434041708]
Way-to-Specialist(WTS)フレームワークは、知識グラフによる検索拡張生成を相乗化する。
LLM$circlearrowright$KG"パラダイムは、特殊LLMとドメイン知識グラフの双方向化を実現する。
論文 参考訳(メタデータ) (2024-11-28T11:24:43Z) - FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [64.50893177169996]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルなヘテロジニアスシナリオにおけるMLLMのファインチューニングにおける様々なダウンストリームタスクを評価するためのベンチマークを提案する。
我々は,2つのモダリティに依存しない戦略とともに,4つの代表的FL手法を統合する汎用FedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - DoPAMine: Domain-specific Pre-training Adaptation from seed-guided data Mining [2.1534028009401713]
大規模言語モデル(LLM)は、多くの業界領域で効果的に一般化する能力を示している。
LLMは、専門分野や低リソース産業領域での業務を行う際の制限を示す。
本研究では,シードガイドデータマイニングによるDoPAMine:Domain固有の事前トレーニング適応を提案する。
論文 参考訳(メタデータ) (2024-09-30T22:15:58Z) - Industrial Language-Image Dataset (ILID): Adapting Vision Foundation Models for Industrial Settings [0.0]
産業用言語画像データセット(ILID)をWebcrawledデータに基づいて生成するパイプラインを提案する。
本稿では,安価なILIDを学習した後に,効果的な自己指導型トランスファー学習と下流タスクの議論を行う。
論文 参考訳(メタデータ) (2024-06-14T00:06:52Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - Visual Question Answering Instruction: Unlocking Multimodal Large
Language Model To Domain-Specific Visual Multitasks [0.8192907805418583]
VQA-IN(Visual Question Answering Instruction)と呼ばれる,ドメイン固有の視覚および視覚のデータセットを統一された質問応答形式に変換する手法を開発した。
提案手法は,マルチタスク方式で視覚言語タスクの性能を維持しつつ,ドメイン固有の視覚タスクのスコアを高く評価する。
論文 参考訳(メタデータ) (2024-02-13T10:40:53Z) - A Framework to Implement 1+N Multi-task Fine-tuning Pattern in LLMs
Using the CGC-LORA Algorithm [7.521690071464451]
大規模言語モデル (LLM) において, 1 + N mutli-task の微調整パターンを実装する統一フレームワークを提案する。
我々の研究は、MPL(CGC)とPEFT(LoRA)の両方の利点を享受することを目的としている。
論文 参考訳(メタデータ) (2024-01-22T07:58:31Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。