論文の概要: MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction
Tuning
- arxiv url: http://arxiv.org/abs/2212.10773v3
- Date: Sat, 10 Jun 2023 18:33:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 01:50:43.684801
- Title: MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction
Tuning
- Title(参考訳): multiinstruct:命令チューニングによるマルチモーダルゼロショット学習の改善
- Authors: Zhiyang Xu, Ying Shen, Lifu Huang
- Abstract要約: インストラクションチューニングは、命令によって指定されたタスクで事前訓練された言語モデルを微調整する新しい学習パラダイムである。
MUL-TIINSTRUCTは,最初のマルチモーダル・インストラクション・チューニング・ベンチマーク・データセットである。
各種マルチモーダルタスクにおけるゼロショット性能と,テキストのみの命令データセットからの変換学習の利点を示す。
- 参考スコア(独自算出の注目度): 24.741736629886564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction tuning, a new learning paradigm that fine-tunes pre-trained
language models on tasks specified through instructions, has shown promising
zero-shot performance on various natural language processing tasks. However, it
has yet to be explored for vision and multimodal tasks. In this work, we
introduce MUL-TIINSTRUCT, the first multimodal instruction tuning benchmark
dataset that consists of 62 diverse multimodal tasks in a unified seq-to-seq
format covering 10 broad categories. The tasks are derived from 21 existing
open-source datasets and each task is equipped with 5 expert-written
instructions. We take OFA as the base pre-trained model for multimodal
instruction tuning, and to further improve its zero-shot performance, we
explore multiple transfer learning strategies to leverage the large-scale
NATURAL INSTRUCTIONS dataset. Experimental results demonstrate strong zero-shot
performance on various unseen multimodal tasks and the benefit of transfer
learning from a text-only instruction dataset. We also design a new evaluation
metric - Sensitivity, to evaluate how sensitive the model is to the variety of
instructions. Our results indicate that fine-tuning the model on a diverse set
of tasks and instructions leads to a reduced sensitivity to variations in
instructions for each task.
- Abstract(参考訳): 命令によって指定されたタスクで事前訓練された言語モデルを微調整する新しい学習パラダイムであるインストラクションチューニングは、様々な自然言語処理タスクでゼロショット性能を約束している。
しかし、まだビジョンやマルチモーダルタスクについては検討されていない。
本稿では、10のカテゴリをカバーする統一されたseq-to-seqフォーマットで62の多様なマルチモーダルタスクからなる、最初のマルチモーダル命令チューニングベンチマークデータセットであるmul-tiinstructを紹介する。
タスクは21の既存のオープンソースデータセットから派生し、各タスクには5つの専門家による命令が付属する。
我々は、ofaをマルチモーダル命令チューニングの基本事前学習モデルとして捉え、そのゼロショット性能をさらに向上するために、大規模自然命令データセットを活用するために、複数の転送学習戦略を探求する。
実験結果は,未認識のマルチモーダルタスクにおけるゼロショット性能と,テキストのみの命令データセットからの転送学習の利点を示している。
また、モデルが様々な命令にどの程度敏感であるかを評価するために、新しい評価指標、すなわち感度も設計します。
その結果、様々なタスクや命令でモデルを微調整することで、各タスクの命令のばらつきに対する感度が低下することが示唆された。
関連論文リスト
- Less is More: Data Value Estimation for Visual Instruction Tuning [127.38740043393527]
視覚的命令データにおける冗長性を除去する新しいデータ選択手法を提案する。
LLaVA-1.5の実験では、約7.5%のデータしか使用していないアプローチが、フルデータ微調整モデルと同等の性能を達成できることが示されている。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Fine-tuning Large Language Models with Sequential Instructions [2.8967653906025426]
大きな言語モデル(LLM)は、その一部を無視したり誤解させたりするため、単一のクエリで命令列に従うのに苦労する。
本稿では,命令処理データを自動的に拡張し,複数の逐次命令を実行する能力を備えたLCMを装備するシーケンシャル命令チューニング手法を提案する。
逐次的命令調整モデルは、推論、多言語、マルチモーダル能力を含む下流タスクにおいて、従来の命令調整ベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-03-12T16:33:30Z) - INSTRAUG: Automatic Instruction Augmentation for Multimodal Instruction
Fine-tuning [28.667060630303183]
本研究では,マルチモーダルタスクにおいて,INSTRAUGという自動命令拡張手法を導入する。
2つの人気のあるマルチモーダル命令フォローベンチマークの結果、INSTRAUGは12のマルチモーダルタスク間でのMLLM(Multimodal Large Language Model)のアライメントを大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-02-22T12:35:50Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - ControlRetriever: Harnessing the Power of Instructions for Controllable
Retrieval [53.06863641229893]
本稿では,多種多様な検索タスクを直接実行する高密度検索モデルを制御する制御レトリバーについて紹介する。
ControlRetrieverは、タスク固有の命令でガイドされている間、新しい制御可能な検索能力で異なる検索モデルに報いる。
論文 参考訳(メタデータ) (2023-08-19T14:17:57Z) - Boosting Natural Language Generation from Instructions with
Meta-Learning [43.64522457686405]
最近の研究によると、言語モデル(LM)はマルチタスクで訓練されている。
Textitinstructional Learning (MTIL) は多様なNLPを解くことができる。
即時チューニングよりもパフォーマンスが向上したタスク。
本稿では,MTILに適用したメタラーニングが,ゼロショット設定における未確認タスクへの一般化をさらに改善できるかどうかを検討する。
論文 参考訳(メタデータ) (2022-10-20T22:23:23Z) - Prompt Tuning with Soft Context Sharing for Vision-Language Models [56.628198024857056]
本稿では,複数目的の複数ショットタスクに対して,事前学習した視覚言語モデルを同時に微調整する手法を提案する。
実験では、SoftCPTは、代表的なシングルタスクプロンプトチューニング手法であるCoOpを大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-08-29T10:19:10Z) - CINS: Comprehensive Instruction for Few-shot Learning in Task-oriented
Dialog Systems [56.302581679816775]
本稿では,タスク固有の命令でPLMを利用する包括的インストラクション(CINS)を提案する。
命令のスキーマ(定義、制約、プロンプト)と、ToDの3つの重要な下流タスクに対するカスタマイズされた実現を設計する。
これらのToDタスクに対して,小さな検証データを用いた現実的な数ショット学習シナリオで実験を行った。
論文 参考訳(メタデータ) (2021-09-10T03:23:06Z) - Learning Modality-Specific Representations with Self-Supervised
Multi-Task Learning for Multimodal Sentiment Analysis [11.368438990334397]
我々は,独立した一助的指導を受けるための自己指導型学習戦略を開発する。
我々は3つの公開マルチモーダルベースラインデータセットについて広範な実験を行った。
提案手法は,人間の注釈付きアンモダルラベルと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-02-09T14:05:02Z) - Latent Group Structured Multi-task Learning [2.827177139912107]
マルチタスク学習(MTL)では,様々なタスクを共同で学習することで,鍵となる機械学習アルゴリズムの性能を向上させる。
本稿では,事前情報によって定義されたグループ構造化タスクを奨励するグループ構造化潜在空間マルチタスク学習モデルを提案する。
合成データセットと実世界のデータセットの両方で実験が行われ、シングルタスク学習よりも競争力のあるパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-11-24T05:38:58Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。