論文の概要: On Domain-Specific Post-Training for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2411.19930v2
- Date: Thu, 20 Mar 2025 06:35:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 15:30:51.874251
- Title: On Domain-Specific Post-Training for Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルのドメイン特化後訓練について
- Authors: Daixuan Cheng, Shaohan Huang, Ziyu Zhu, Xintong Zhang, Wayne Xin Zhao, Zhongzhi Luan, Bo Dai, Zhenliang Zhang,
- Abstract要約: 本稿では,MLLMのドメイン適応をポストトレーニングにより体系的に検討する。
データ合成、トレーニングパイプライン、タスク評価に重点を置いています。
バイオメディシン、食品、リモートセンシングなどの高インパクト領域で実験を行う。
- 参考スコア(独自算出の注目度): 72.67107077850939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adapting general multimodal large language models (MLLMs) to specific domains, such as scientific and industrial fields, is highly significant in promoting their practical applications. This paper systematically investigates domain adaptation of MLLMs through post-training, focusing on data synthesis, training pipelines, and task evaluation. (1) Data Synthesis: Using only open-source models, we develop a generate-then-filter pipeline that curates diverse visual instruction tasks based on domain-specific image-caption pairs. The resulting data surpass the data synthesized by manual rules or strong closed-source models (e.g., GPT-4V) in enhancing domain-specific performance. (2) Training Pipeline: While the two-stage training--initially on image-caption pairs followed by visual instruction tasks--is commonly adopted for developing general MLLMs, we apply a single-stage training pipeline to enhance task diversity for domain-specific post-training. (3) Task Evaluation: We conduct extensive experiments in high-impact domains such as biomedicine, food, and remote sensing, by post-training a variety of MLLMs and then evaluating MLLM performance on various domain-specific tasks. Furthermore, we fully open-source our models, code, and data to encourage future research in this area.
- Abstract(参考訳): 科学や産業など特定の分野に汎用多モーダル大言語モデル(MLLM)を適用することは、その実践的応用を促進する上で非常に重要である。
本稿では,データ合成,トレーニングパイプライン,タスク評価などに着目し,MLLMのドメイン適応を系統的に検討する。
1)データ合成: オープンソースモデルのみを用いて, ドメイン固有の画像キャプチャーペアに基づいて, 多様な視覚的命令タスクをキュレートする生成-then-filterパイプラインを開発する。
得られたデータは、ドメイン固有のパフォーマンスを向上させるために、手動のルールや強力なクローズドソースモデル(例えば、GPT-4V)によって合成されたデータを上回る。
2)訓練パイプライン: イメージキャプションペアと視覚指導タスクを併用した2段階訓練は, 一般的なMLLMの開発に一般的に採用されているが, 単段階訓練パイプラインを適用して, ドメイン固有のポストトレーニングのタスク多様性を高める。
課題評価: 各種MLLMの訓練後, 各種ドメイン固有のタスクでMLLMの性能を評価することにより, バイオメディシン, 食品, リモートセンシングなどの高インパクト領域で広範囲にわたる実験を行う。
さらに、この領域における将来の研究を促進するために、モデル、コード、データを完全にオープンソースにしています。
関連論文リスト
- Keeping Yourself is Important in Downstream Tuning Multimodal Large Language Model [63.14883657299359]
MLLM(Multi-modal Large Language Models)は、視覚的および言語的推論を統合して、画像キャプションや視覚的質問応答といった複雑なタスクに対処する。
ダウンストリームタスクのためのMLLMのチューニングには,2つの重要な課題がある。タスク-Expert – 事前トレーニングとターゲットデータセット間の分散シフトによってターゲットのパフォーマンスが制限される。
論文 参考訳(メタデータ) (2025-03-06T15:29:13Z) - From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons [85.99268361356832]
一般身体エージェント(GEA)にMLLMを適用するプロセスを紹介する。
GEAは、多体アクショントークンーザを通じて、さまざまなドメインにまたがって自分自身をグラウンド化できる単一の統一モデルである。
本研究は,汎用エージェント構築のためのクロスドメインデータとオンラインRLを用いたトレーニングの重要性を明らかにした。
論文 参考訳(メタデータ) (2024-12-11T15:06:25Z) - Way to Specialist: Closing Loop Between Specialized LLM and Evolving Domain Knowledge Graph [66.98553434041708]
Way-to-Specialist(WTS)フレームワークは、知識グラフによる検索拡張生成を相乗化する。
LLM$circlearrowright$KG"パラダイムは、特殊LLMとドメイン知識グラフの双方向化を実現する。
論文 参考訳(メタデータ) (2024-11-28T11:24:43Z) - FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [64.50893177169996]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルなヘテロジニアスシナリオにおけるMLLMのファインチューニングにおける様々なダウンストリームタスクを評価するためのベンチマークを提案する。
我々は,2つのモダリティに依存しない戦略とともに,4つの代表的FL手法を統合する汎用FedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - DoPAMine: Domain-specific Pre-training Adaptation from seed-guided data Mining [2.1534028009401713]
大規模言語モデル(LLM)は、多くの業界領域で効果的に一般化する能力を示している。
LLMは、専門分野や低リソース産業領域での業務を行う際の制限を示す。
本研究では,シードガイドデータマイニングによるDoPAMine:Domain固有の事前トレーニング適応を提案する。
論文 参考訳(メタデータ) (2024-09-30T22:15:58Z) - Industrial Language-Image Dataset (ILID): Adapting Vision Foundation Models for Industrial Settings [0.0]
産業用言語画像データセット(ILID)をWebcrawledデータに基づいて生成するパイプラインを提案する。
本稿では,安価なILIDを学習した後に,効果的な自己指導型トランスファー学習と下流タスクの議論を行う。
論文 参考訳(メタデータ) (2024-06-14T00:06:52Z) - BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models [56.89958793648104]
大規模言語モデル(LLM)は多用途であり、多様なタスクに対処することができる。
従来のアプローチでは、ドメイン固有のデータによる継続的な事前トレーニングを行うか、一般的なLLMをサポートするために検索拡張を採用する。
BLADEと呼ばれる新しいフレームワークを提案する。このフレームワークは、小さなDomain-spEcificモデルでブラックボックスのLArge言語モデルを拡張する。
論文 参考訳(メタデータ) (2024-03-27T08:57:21Z) - Visual Question Answering Instruction: Unlocking Multimodal Large
Language Model To Domain-Specific Visual Multitasks [0.8192907805418583]
VQA-IN(Visual Question Answering Instruction)と呼ばれる,ドメイン固有の視覚および視覚のデータセットを統一された質問応答形式に変換する手法を開発した。
提案手法は,マルチタスク方式で視覚言語タスクの性能を維持しつつ,ドメイン固有の視覚タスクのスコアを高く評価する。
論文 参考訳(メタデータ) (2024-02-13T10:40:53Z) - A Framework to Implement 1+N Multi-task Fine-tuning Pattern in LLMs
Using the CGC-LORA Algorithm [7.521690071464451]
大規模言語モデル (LLM) において, 1 + N mutli-task の微調整パターンを実装する統一フレームワークを提案する。
我々の研究は、MPL(CGC)とPEFT(LoRA)の両方の利点を享受することを目的としている。
論文 参考訳(メタデータ) (2024-01-22T07:58:31Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。