論文の概要: MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction
Tuning
- arxiv url: http://arxiv.org/abs/2212.10773v1
- Date: Wed, 21 Dec 2022 05:17:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 14:47:40.849796
- Title: MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction
Tuning
- Title(参考訳): multiinstruct:命令チューニングによるマルチモーダルゼロショット学習の改善
- Authors: Zhiyang Xu, Ying Shen, Lifu Huang
- Abstract要約: 最初のマルチモーダル命令チューニングベンチマークデータセットであるMultiInstructを導入する。
各タスクは、既存のオープンソースデータセットから5,000のインスタンス(インプットアウトペア)と5つの専門家による命令で設計されている。
実験により, 様々なマルチモーダルタスクにおいて, ゼロショット性能が強いことを示す。
- 参考スコア(独自算出の注目度): 24.741736629886564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction tuning, a new learning paradigm that fine-tunes pre-trained
language models on tasks specified through instructions, has shown promising
zero-shot performance on various natural language processing tasks. However,
it's still not explored for vision and multimodal tasks. In this work, we
introduce MultiInstruct, the first multimodal instruction tuning benchmark
dataset that consists of 47 diverse multimodal tasks covering 11 broad
categories. Each task is designed at least with 5,000 instances (input-out
pairs) from existing open-source datasets and 5 expert-written instructions. We
take OFA as the base pre-trained model for multimodal instruction tuning, and
to improve its performance, we explore multiple transfer learning strategies to
leverage the large-scale Natural Instructions dataset. Experimental results
demonstrate its strong zero-shot performance on various unseen multimodal tasks
and the benefit of transfer learning from text-only instructions. We also
design a new evaluation metric: Sensitivity, to evaluate how sensitive the
model is to the variety of instructions. Our results indicate that the model is
less sensitive to the varying instructions after finetuning on a diverse set of
tasks and instructions for each task.
- Abstract(参考訳): 命令によって指定されたタスクで事前訓練された言語モデルを微調整する新しい学習パラダイムであるインストラクションチューニングは、様々な自然言語処理タスクでゼロショット性能を約束している。
しかし、ビジョンやマルチモーダルタスクについては、まだ検討されていない。
本稿では,11のカテゴリをカバーする47の多様なマルチモーダルタスクからなる,最初のマルチモーダル命令チューニングベンチマークデータセットであるmultiinstructを紹介する。
各タスクは、既存のオープンソースデータセットから5,000のインスタンス(インプットアウトペア)と5つの専門家による命令で設計されている。
我々は,OFAをマルチモーダル・インストラクション・チューニングの基礎となる事前学習モデルとみなし,その性能を向上させるために,大規模なNatural Instructionsデータセットを活用するために複数のトランスファー学習戦略を検討する。
実験の結果,未認識のマルチモーダルタスクにおけるゼロショット性能が強く,テキストのみの命令からの転送学習の利点が示された。
また、モデルが様々な命令に対してどれほど敏感であるかを評価するために、感性という新しい評価指標も設計する。
本結果から,各タスクに対する多様なタスクや命令を微調整した後,モデルが様々な命令に敏感でないことが示唆された。
関連論文リスト
- Less is More: Data Value Estimation for Visual Instruction Tuning [127.38740043393527]
視覚的命令データにおける冗長性を除去する新しいデータ選択手法を提案する。
LLaVA-1.5の実験では、約7.5%のデータしか使用していないアプローチが、フルデータ微調整モデルと同等の性能を達成できることが示されている。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Fine-tuning Large Language Models with Sequential Instructions [2.8967653906025426]
大きな言語モデル(LLM)は、その一部を無視したり誤解させたりするため、単一のクエリで命令列に従うのに苦労する。
本稿では,命令処理データを自動的に拡張し,複数の逐次命令を実行する能力を備えたLCMを装備するシーケンシャル命令チューニング手法を提案する。
逐次的命令調整モデルは、推論、多言語、マルチモーダル能力を含む下流タスクにおいて、従来の命令調整ベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-03-12T16:33:30Z) - INSTRAUG: Automatic Instruction Augmentation for Multimodal Instruction
Fine-tuning [28.667060630303183]
本研究では,マルチモーダルタスクにおいて,INSTRAUGという自動命令拡張手法を導入する。
2つの人気のあるマルチモーダル命令フォローベンチマークの結果、INSTRAUGは12のマルチモーダルタスク間でのMLLM(Multimodal Large Language Model)のアライメントを大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-02-22T12:35:50Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - ControlRetriever: Harnessing the Power of Instructions for Controllable
Retrieval [53.06863641229893]
本稿では,多種多様な検索タスクを直接実行する高密度検索モデルを制御する制御レトリバーについて紹介する。
ControlRetrieverは、タスク固有の命令でガイドされている間、新しい制御可能な検索能力で異なる検索モデルに報いる。
論文 参考訳(メタデータ) (2023-08-19T14:17:57Z) - Boosting Natural Language Generation from Instructions with
Meta-Learning [43.64522457686405]
最近の研究によると、言語モデル(LM)はマルチタスクで訓練されている。
Textitinstructional Learning (MTIL) は多様なNLPを解くことができる。
即時チューニングよりもパフォーマンスが向上したタスク。
本稿では,MTILに適用したメタラーニングが,ゼロショット設定における未確認タスクへの一般化をさらに改善できるかどうかを検討する。
論文 参考訳(メタデータ) (2022-10-20T22:23:23Z) - Prompt Tuning with Soft Context Sharing for Vision-Language Models [56.628198024857056]
本稿では,複数目的の複数ショットタスクに対して,事前学習した視覚言語モデルを同時に微調整する手法を提案する。
実験では、SoftCPTは、代表的なシングルタスクプロンプトチューニング手法であるCoOpを大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-08-29T10:19:10Z) - CINS: Comprehensive Instruction for Few-shot Learning in Task-oriented
Dialog Systems [56.302581679816775]
本稿では,タスク固有の命令でPLMを利用する包括的インストラクション(CINS)を提案する。
命令のスキーマ(定義、制約、プロンプト)と、ToDの3つの重要な下流タスクに対するカスタマイズされた実現を設計する。
これらのToDタスクに対して,小さな検証データを用いた現実的な数ショット学習シナリオで実験を行った。
論文 参考訳(メタデータ) (2021-09-10T03:23:06Z) - Learning Modality-Specific Representations with Self-Supervised
Multi-Task Learning for Multimodal Sentiment Analysis [11.368438990334397]
我々は,独立した一助的指導を受けるための自己指導型学習戦略を開発する。
我々は3つの公開マルチモーダルベースラインデータセットについて広範な実験を行った。
提案手法は,人間の注釈付きアンモダルラベルと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-02-09T14:05:02Z) - Latent Group Structured Multi-task Learning [2.827177139912107]
マルチタスク学習(MTL)では,様々なタスクを共同で学習することで,鍵となる機械学習アルゴリズムの性能を向上させる。
本稿では,事前情報によって定義されたグループ構造化タスクを奨励するグループ構造化潜在空間マルチタスク学習モデルを提案する。
合成データセットと実世界のデータセットの両方で実験が行われ、シングルタスク学習よりも競争力のあるパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-11-24T05:38:58Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。