論文の概要: MLLM-DataEngine: An Iterative Refinement Approach for MLLM
- arxiv url: http://arxiv.org/abs/2308.13566v2
- Date: Mon, 11 Sep 2023 08:28:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 18:36:16.433404
- Title: MLLM-DataEngine: An Iterative Refinement Approach for MLLM
- Title(参考訳): MLLM-DataEngine:MLLMの反復的リファインメントアプローチ
- Authors: Zhiyuan Zhao, Linke Ouyang, Bin Wang, Siyuan Huang, Pan Zhang, Xiaoyi
Dong, Jiaqi Wang, Conghui He
- Abstract要約: 本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
- 参考スコア(独自算出の注目度): 62.30753425449056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the great advance of Multimodal Large Language Models (MLLMs) in both
instruction dataset building and benchmarking, the independence of training and
evaluation makes current MLLMs hard to further improve their capability under
the guidance of evaluation results with a relatively low human cost. In this
paper, we propose MLLM-DataEngine, a novel closed-loop system that bridges data
generation, model training, and evaluation. Within each loop iteration, the
MLLM-DataEngine first analyze the weakness of the model based on the evaluation
results, then generate a proper incremental dataset for the next training
iteration and enhance the model capability iteratively. Compared with previous
data collection methods which are separate from the benchmarking, the data
generated by MLLM-DataEngine shows better targeting, quality, and correctness.
For targeting, we propose an Adaptive Bad-case Sampling module, which adjusts
the ratio of different types of data within each incremental dataset based on
the benchmarking results. For quality, we resort to GPT-4 to generate
high-quality data with each given data type. For correctness, prompt design is
critical for the data generation results. Rather than previous hand-crafted
prompt, we propose an Interactive Prompt Optimization strategy, which optimizes
the prompt with the multi-round interaction between human and GPT, and improve
the correctness of generated data greatly. Through extensive experiments, we
find our MLLM-DataEngine could boost the MLLM capability in a targeted and
automatic manner, with only a few human participation. We hope it could be a
general solution for the following MLLMs building. The MLLM-DataEngine has been
open-sourced and is now available at
https://github.com/opendatalab/MLLM-DataEngine.
- Abstract(参考訳): 命令データセットの構築とベンチマークにおけるMLLM(Multimodal Large Language Models)の大幅な進歩にもかかわらず、トレーニングと評価の独立により、現在のMLLMは、比較的低コストで評価結果のガイダンスの下で、さらなる能力向上を困難にしている。
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムであるMLLM-DataEngineを提案する。
各ループイテレーションの中で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析し、次に次のトレーニングイテレーションのための適切なインクリメンタルデータセットを生成し、モデルの能力を反復的に拡張します。
ベンチマークから分離した従来のデータ収集手法と比較して、MLLM-DataEngineが生成したデータは、より優れたターゲティング、品質、正確性を示している。
そこで本研究では,各インクリメンタルデータセット内の異なる種類のデータの比率をベンチマーク結果に基づいて調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
正確性のため、データ生成結果にはプロンプト設計が不可欠である。
従来の手作りプロンプトではなく,人間とgptのマルチラウンドインタラクションでプロンプトを最適化し,生成データの正確性を大幅に向上させる対話型プロンプト最適化手法を提案する。
大規模な実験を通じて、MLLM-DataEngineはMLLMの能力を目標かつ自動的に向上させることができ、人間の参加はごくわずかである。
以下に示すMLLMの一般的なソリューションになることを願っています。
MLLM-DataEngineがオープンソース化され、https://github.com/opendatalab/MLLM-DataEngineで利用可能になった。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - Enhancing Discriminative Tasks by Guiding the Pre-trained Language Model with Large Language Model's Experience [4.814313782484443]
大規模言語モデル (LLM) と事前訓練型言語モデル (LM) は多くのソフトウェア工学のタスクにおいて驚くべき成功を収めた。
我々は、LLMを用いてドメイン固有のデータを生成し、目標タスクにおける事前学習されたLMの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-16T06:37:59Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - UICoder: Finetuning Large Language Models to Generate User Interface Code through Automated Feedback [21.858896845159208]
大規模言語モデル(LLM)は、視覚的に関連する設計をコンパイルし、生成するUIコードを生成するのに苦労する。
生成を改善するための既存のアプローチは、高価な人間のフィードバックやプロプライエタリなモデルを蒸留することに依存している。
提案手法は,既存のLLMから始まり,大規模合成データセットを自己生成することにより,改良されたモデルを反復的に生成する。
論文 参考訳(メタデータ) (2024-06-11T21:53:46Z) - COCO is "ALL'' You Need for Visual Instruction Fine-tuning [39.438410070172125]
ビジュアルインストラクション微調整(IFT)は、MLLMの出力をユーザの意図に合わせるための重要なプロセスである。
近年,多面的アプローチによる視覚的IFTデータセットの構築が提案されている。
我々は新しいIFTデータセットを構築し、COCOデータセットからの画像と、より多様な指示を得られるようにした。
論文 参考訳(メタデータ) (2024-01-17T04:43:45Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - SEED: Domain-Specific Data Curation With Large Language Models [22.54280367957015]
LLM-as-compilerアプローチであるSEEDは,Large Language Models(LLM)を介して,ドメイン固有のデータキュレーションソリューションを自動的に生成する。
SEEDは、4つのLCMアシストモジュールから自動的に選択し、そのタスクに最も適したハイブリッド実行パイプラインを形成する。
論文 参考訳(メタデータ) (2023-10-01T17:59:20Z) - Data-Juicer: A One-Stop Data Processing System for Large Language Models [73.27731037450995]
データレシピは、大規模言語モデル(LLM)をトレーニングするための異なるソースからのデータの混合である。
我々はData-Juicerという新しいシステムを構築し、多様なデータレシピを効率的に生成できる。
Data-Juicerから派生したデータレシピは、最先端のLLMで顕著に改善されている。
論文 参考訳(メタデータ) (2023-09-05T08:22:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。