論文の概要: InstructionGPT-4: A 200-Instruction Paradigm for Fine-Tuning MiniGPT-4
- arxiv url: http://arxiv.org/abs/2308.12067v2
- Date: Wed, 11 Oct 2023 14:49:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 04:30:09.718922
- Title: InstructionGPT-4: A 200-Instruction Paradigm for Fine-Tuning MiniGPT-4
- Title(参考訳): インストラクションGPT-4:微細調整用200命令パラダイム
- Authors: Lai Wei, Zihao Jiang, Weiran Huang, Lichao Sun
- Abstract要約: InstructionGPT-4は200のサンプルからなる小さなデータセット上で微調整される。
これらの指標に基づいて,低品質の視覚言語データを自動的に識別・フィルタリングする,効果的で訓練可能なデータセレクタを提案する。
この結果から,マルチモーダルな大規模言語モデルがより優れた出力を生成するためには,低品質な命令調律データが効率的であることが示唆された。
- 参考スコア(独自算出の注目度): 14.248735997950446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models are typically trained in two stages: first
pre-training on image-text pairs, and then fine-tuning using supervised
vision-language instruction data. Recent studies have shown that large language
models can achieve satisfactory results even with a limited amount of
high-quality instruction-following data. In this paper, we introduce
InstructionGPT-4, which is fine-tuned on a small dataset comprising only 200
examples, amounting to approximately 6\% of the instruction-following data used
in the alignment dataset for MiniGPT-4. To achieve this, we first propose
several metrics to access the quality of multimodal instruction data. Based on
these metrics, we present an effective and trainable data selector to
automatically identify and filter low-quality vision-language data. By
employing this method, InstructionGPT-4 outperforms the original MiniGPT-4 on
various evaluations. Overall, our findings demonstrate that less but
high-quality instruction tuning data is efficient in enabling multimodal large
language models to generate better output. Our code is available at
https://github.com/waltonfuture/InstructionGPT-4.
- Abstract(参考訳): マルチモーダルな大規模言語モデルは通常、イメージテキストペアの事前トレーニングと、教師付き視覚言語命令データによる微調整という2つのステージで訓練される。
近年の研究では、高品質な命令追従データが少ない場合でも、大きな言語モデルで満足な結果が得られることが示されている。
本稿では,ミニgpt-4のアライメントデータセットで使用される命令追従データの約6\%を,200例のみからなる小さなデータセット上で微調整した命令gpt-4を提案する。
そこで我々はまず,マルチモーダル命令データの品質にアクセスするための指標をいくつか提案する。
これらの指標に基づいて,低品質の視覚言語データを自動識別・フィルタリングする有効で訓練可能なデータセレクタを提案する。
この手法を用いることで、インストラクションGPT-4はオリジナルのMiniGPT-4を様々な評価で上回っている。
全体として,マルチモーダルな大規模言語モデルがより優れた出力を生成する上で,高品質な命令チューニングデータが効率的であることを示す。
私たちのコードはhttps://github.com/waltonfuture/InstructionGPT-4.comで利用可能です。
関連論文リスト
- MLAN: Language-Based Instruction Tuning Improves Zero-Shot Generalization of Multimodal Large Language Models [79.0546136194314]
マルチモーダルな大規模言語モデルのゼロショットタスクの一般化を改善するために,新しい命令チューニング手法を提案する。
提案手法の有効性を,言語と視覚の両面にまたがる9つの未知のデータセットに対して評価した。
論文 参考訳(メタデータ) (2024-11-15T20:09:59Z) - MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity [80.02202386597138]
高品質で多様な視覚指導訓練データセットMMInstructを構築し、24ドメインの973K命令で構成されている。
提案する命令生成エンジンは,手作業のコストで半自動,低コスト,マルチドメインの命令生成を可能にする。
論文 参考訳(メタデータ) (2024-07-22T17:55:22Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Towards Robust Instruction Tuning on Multimodal Large Language Models [25.506776502317436]
本研究では,マルチモーダルタスクにおいて,INSTRAUGという自動命令拡張手法を導入する。
2つの人気のあるマルチモーダル命令フォローベンチマークの結果、INSTRAUGは12のマルチモーダルタスク間でのMLLM(Multimodal Large Language Model)のアライメントを大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-02-22T12:35:50Z) - Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning [53.93074108238167]
現在までに最も多種多様なビジュアル・インストラクション・チューニング・データセットであるVision-Flanを構築している。
本稿では、VLMをVision-Flan上で微調整し、さらにGPT-4合成データに基づいて調整する2段階の命令チューニングフレームワークを提案する。
この2段階のチューニングフレームワークは、従来の1段階の視覚的チューニングフレームワークよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-02-18T19:38:44Z) - Instruction Mining: Instruction Data Selection for Tuning Large Language Models [18.378654454336136]
InstructMiningは、大規模な言語モデルを微調整するためのプレミアムインストラクションフォローデータを自動的に選択するように設計されている。
InstructMining は LLM-as-a-judge と Huggingface OpenLLM の2つのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-07-12T16:37:31Z) - Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。
このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。
科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文 参考訳(メタデータ) (2023-04-17T17:59:25Z) - Instruction Tuning with GPT-4 [107.55078894215798]
本稿では, GPT-4を用いて命令追従データを生成し, 大規模言語モデルを微調整する試みについて述べる。
命令調整型LLaMAモデルの初期実験では、52Kの英語と中国語の命令追従データがGPT-4によって生成され、新しいタスクにおけるゼロショット性能が向上することが示された。
論文 参考訳(メタデータ) (2023-04-06T17:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。