論文の概要: InstructionGPT-4: A 200-Instruction Paradigm for Fine-Tuning MiniGPT-4
- arxiv url: http://arxiv.org/abs/2308.12067v2
- Date: Wed, 11 Oct 2023 14:49:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 04:30:09.718922
- Title: InstructionGPT-4: A 200-Instruction Paradigm for Fine-Tuning MiniGPT-4
- Title(参考訳): インストラクションGPT-4:微細調整用200命令パラダイム
- Authors: Lai Wei, Zihao Jiang, Weiran Huang, Lichao Sun
- Abstract要約: InstructionGPT-4は200のサンプルからなる小さなデータセット上で微調整される。
これらの指標に基づいて,低品質の視覚言語データを自動的に識別・フィルタリングする,効果的で訓練可能なデータセレクタを提案する。
この結果から,マルチモーダルな大規模言語モデルがより優れた出力を生成するためには,低品質な命令調律データが効率的であることが示唆された。
- 参考スコア(独自算出の注目度): 14.248735997950446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models are typically trained in two stages: first
pre-training on image-text pairs, and then fine-tuning using supervised
vision-language instruction data. Recent studies have shown that large language
models can achieve satisfactory results even with a limited amount of
high-quality instruction-following data. In this paper, we introduce
InstructionGPT-4, which is fine-tuned on a small dataset comprising only 200
examples, amounting to approximately 6\% of the instruction-following data used
in the alignment dataset for MiniGPT-4. To achieve this, we first propose
several metrics to access the quality of multimodal instruction data. Based on
these metrics, we present an effective and trainable data selector to
automatically identify and filter low-quality vision-language data. By
employing this method, InstructionGPT-4 outperforms the original MiniGPT-4 on
various evaluations. Overall, our findings demonstrate that less but
high-quality instruction tuning data is efficient in enabling multimodal large
language models to generate better output. Our code is available at
https://github.com/waltonfuture/InstructionGPT-4.
- Abstract(参考訳): マルチモーダルな大規模言語モデルは通常、イメージテキストペアの事前トレーニングと、教師付き視覚言語命令データによる微調整という2つのステージで訓練される。
近年の研究では、高品質な命令追従データが少ない場合でも、大きな言語モデルで満足な結果が得られることが示されている。
本稿では,ミニgpt-4のアライメントデータセットで使用される命令追従データの約6\%を,200例のみからなる小さなデータセット上で微調整した命令gpt-4を提案する。
そこで我々はまず,マルチモーダル命令データの品質にアクセスするための指標をいくつか提案する。
これらの指標に基づいて,低品質の視覚言語データを自動識別・フィルタリングする有効で訓練可能なデータセレクタを提案する。
この手法を用いることで、インストラクションGPT-4はオリジナルのMiniGPT-4を様々な評価で上回っている。
全体として,マルチモーダルな大規模言語モデルがより優れた出力を生成する上で,高品質な命令チューニングデータが効率的であることを示す。
私たちのコードはhttps://github.com/waltonfuture/InstructionGPT-4.comで利用可能です。
関連論文リスト
- Less is More: Data Value Estimation for Visual Instruction Tuning [127.38740043393527]
視覚的命令データにおける冗長性を除去する新しいデータ選択手法を提案する。
LLaVA-1.5の実験では、約7.5%のデータしか使用していないアプローチが、フルデータ微調整モデルと同等の性能を達成できることが示されている。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - INSTRAUG: Automatic Instruction Augmentation for Multimodal Instruction
Fine-tuning [28.667060630303183]
本研究では,マルチモーダルタスクにおいて,INSTRAUGという自動命令拡張手法を導入する。
2つの人気のあるマルチモーダル命令フォローベンチマークの結果、INSTRAUGは12のマルチモーダルタスク間でのMLLM(Multimodal Large Language Model)のアライメントを大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-02-22T12:35:50Z) - Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning [53.93074108238167]
現在までに最も多種多様なビジュアル・インストラクション・チューニング・データセットであるVision-Flanを構築している。
本稿では、VLMをVision-Flan上で微調整し、さらにGPT-4合成データに基づいて調整する2段階の命令チューニングフレームワークを提案する。
この2段階のチューニングフレームワークは、従来の1段階の視覚的チューニングフレームワークよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-02-18T19:38:44Z) - One Shot Learning as Instruction Data Prospector for Large Language
Models [111.0897473747819]
Nuggetsは、ワンショット学習を用いて、拡張データセットから高品質な命令データを選択する手法である。
提案手法は,Nuggets が生成した例の上位1%による命令チューニングが,全データセットを使用する従来の手法よりも大幅に優れていたことを実証する。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
我々は、高品質なチューニングチューニングデータを生成する革新的なデータ生成パイプラインGenixerを開発した。
生成したデータの有効性を検証するために,人間の評価とユーザの嗜好調査を行った。
代表的なMLLMであるLLaVA1.5とShikraのトレーニングのために,2つの命令チューニングデータセットを生成した。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - Instruction Mining: When Data Mining Meets Large Language Model
Finetuning [20.077359677828426]
InstructMiningは、大規模な言語モデルを微調整するためのプレミアムインストラクションフォローデータを自動的に選択するように設計されている。
InstructMining は LLM-as-a-judge と Huggingface OpenLLM の2つのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-07-12T16:37:31Z) - Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。
このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。
科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文 参考訳(メタデータ) (2023-04-17T17:59:25Z) - Instruction Tuning with GPT-4 [107.55078894215798]
本稿では, GPT-4を用いて命令追従データを生成し, 大規模言語モデルを微調整する試みについて述べる。
命令調整型LLaMAモデルの初期実験では、52Kの英語と中国語の命令追従データがGPT-4によって生成され、新しいタスクにおけるゼロショット性能が向上することが示された。
論文 参考訳(メタデータ) (2023-04-06T17:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。