論文の概要: INSTRAUG: Automatic Instruction Augmentation for Multimodal Instruction
Fine-tuning
- arxiv url: http://arxiv.org/abs/2402.14492v1
- Date: Thu, 22 Feb 2024 12:35:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 15:11:58.329643
- Title: INSTRAUG: Automatic Instruction Augmentation for Multimodal Instruction
Fine-tuning
- Title(参考訳): INSTRAUG:マルチモーダルインストラクションファインタニングのための自動インストラクション拡張
- Authors: Wei Han, Hui Chen, Soujanya Poria
- Abstract要約: 本研究では,マルチモーダルタスクにおいて,INSTRAUGという自動命令拡張手法を導入する。
2つの人気のあるマルチモーダル命令フォローベンチマークの結果、INSTRAUGは12のマルチモーダルタスク間でのMLLM(Multimodal Large Language Model)のアライメントを大幅に改善できることが示された。
- 参考スコア(独自算出の注目度): 28.667060630303183
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Fine-tuning large language models (LLMs) on multi-task instruction-following
data has been proven to be a powerful learning paradigm for improving their
zero-shot capabilities on new tasks. Recent works about high-quality
instruction-following data generation and selection require amounts of human
labor to conceive model-understandable instructions for the given tasks and
carefully filter the LLM-generated data. In this work, we introduce an
automatic instruction augmentation method named INSTRAUG in multimodal tasks.
It starts from a handful of basic and straightforward meta instructions but can
expand an instruction-following dataset by 30 times. Results on two popular
multimodal instructionfollowing benchmarks MULTIINSTRUCT and InstructBLIP show
that INSTRAUG can significantly improve the alignment of multimodal large
language models (MLLMs) across 12 multimodal tasks, which is even equivalent to
the benefits of scaling up training data multiple times.
- Abstract(参考訳): マルチタスク命令追従データにおける大規模言語モデル(llm)の微調整は、新しいタスクのゼロショット能力を改善するための強力な学習パラダイムであることが証明されている。
高品質な命令追従データ生成と選択に関する最近の研究は、与えられたタスクに対するモデル理解可能な命令を判断し、LLM生成データを慎重にフィルタリングするために、人間の労力を必要とする。
本研究では,マルチモーダルタスクにおいて,INSTRAUGという自動命令拡張手法を導入する。
基本的で簡単なメタ命令から始まるが、命令追跡データセットを30倍拡張することができる。
multiinstructとinstructblipの2つの一般的なマルチモーダル命令フォローベンチマークの結果、instraugは12のマルチモーダルタスクにまたがるマルチモーダル大規模言語モデル(mllms)のアライメントを大幅に改善できることが示されている。
関連論文リスト
- Less is More: Data Value Estimation for Visual Instruction Tuning [127.38740043393527]
視覚的命令データにおける冗長性を除去する新しいデータ選択手法を提案する。
LLaVA-1.5の実験では、約7.5%のデータしか使用していないアプローチが、フルデータ微調整モデルと同等の性能を達成できることが示されている。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Fine-tuning Large Language Models with Sequential Instructions [2.8967653906025426]
大きな言語モデル(LLM)は、その一部を無視したり誤解させたりするため、単一のクエリで命令列に従うのに苦労する。
本稿では,命令処理データを自動的に拡張し,複数の逐次命令を実行する能力を備えたLCMを装備するシーケンシャル命令チューニング手法を提案する。
逐次的命令調整モデルは、推論、多言語、マルチモーダル能力を含む下流タスクにおいて、従来の命令調整ベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-03-12T16:33:30Z) - INTERS: Unlocking the Power of Large Language Models in Search with
Instruction Tuning [59.07490387145391]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な機能を示している。
情報検索(IR)タスクへのそれらの適用は、自然言語における多くのIR固有の概念の頻繁な発生のため、いまだに困難である。
我々は,3つの基本IRカテゴリにまたがる20のタスクを含む新しいインストラクションチューニングデータセット InterS を導入する。
論文 参考訳(メタデータ) (2024-01-12T12:10:28Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data
Generator [71.66233345255701]
Genixerは、高品質なマルチモーダルチューニングチューニングデータを生成する革新的なデータ生成パイプラインである。
10の一般的なマルチモーダルタスクのデータセットをインストラクションチューニングデータに変換する。
その後、訓練済みのMLLMを訓練し、タスク固有の命令データを生成する。
実験により、Genixerのフィルタリングされたデータは画像キャプションやVQAタスクのカカポを継続的に改善することが示された。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction
Tuning [24.741736629886564]
インストラクションチューニングは、命令によって指定されたタスクで事前訓練された言語モデルを微調整する新しい学習パラダイムである。
MUL-TIINSTRUCTは,最初のマルチモーダル・インストラクション・チューニング・ベンチマーク・データセットである。
各種マルチモーダルタスクにおけるゼロショット性能と,テキストのみの命令データセットからの変換学習の利点を示す。
論文 参考訳(メタデータ) (2022-12-21T05:17:06Z) - How Many Data Samples is an Additional Instruction Worth? [20.66688303609522]
最近導入された命令パラダイムは、自然言語で新しいタスクを定義することによって、NLPリソースを活用する非専門家ユーザーに権限を与える。
この結果から,タスク間で平均200個のデータサンプルに付加的な命令を適用できることが示唆された。
論文 参考訳(メタデータ) (2022-03-17T08:30:30Z) - CINS: Comprehensive Instruction for Few-shot Learning in Task-oriented
Dialog Systems [56.302581679816775]
本稿では,タスク固有の命令でPLMを利用する包括的インストラクション(CINS)を提案する。
命令のスキーマ(定義、制約、プロンプト)と、ToDの3つの重要な下流タスクに対するカスタマイズされた実現を設計する。
これらのToDタスクに対して,小さな検証データを用いた現実的な数ショット学習シナリオで実験を行った。
論文 参考訳(メタデータ) (2021-09-10T03:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。