Fugu-MT 論文翻訳(概要): MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning

論文の概要: MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning

arxiv url: http://arxiv.org/abs/2212.10773v2
Date: Wed, 7 Jun 2023 23:05:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-09 20:00:23.156932
Title: MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning
Title（参考訳）: multiinstruct:命令チューニングによるマルチモーダルゼロショット学習の改善
Authors: Zhiyang Xu, Ying Shen, Lifu Huang
Abstract要約: 最初のマルチモーダル命令チューニングベンチマークデータセットであるMultiInstructを導入する。各タスクは、既存のオープンソースデータセットから5,000のインスタンス(インプットアウトペア)と5つの専門家による命令で設計されている。実験により, 様々なマルチモーダルタスクにおいて, ゼロショット性能が強いことを示す。
参考スコア（独自算出の注目度）: 24.741736629886564
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Instruction tuning, a new learning paradigm that fine-tunes pre-trained language models on tasks specified through instructions, has shown promising zero-shot performance on various natural language processing tasks. However, it's still not explored for vision and multimodal tasks. In this work, we introduce MultiInstruct, the first multimodal instruction tuning benchmark dataset that consists of 47 diverse multimodal tasks covering 11 broad categories. Each task is designed at least with 5,000 instances (input-out pairs) from existing open-source datasets and 5 expert-written instructions. We take OFA as the base pre-trained model for multimodal instruction tuning, and to improve its performance, we explore multiple transfer learning strategies to leverage the large-scale Natural Instructions dataset. Experimental results demonstrate its strong zero-shot performance on various unseen multimodal tasks and the benefit of transfer learning from text-only instructions. We also design a new evaluation metric: Sensitivity, to evaluate how sensitive the model is to the variety of instructions. Our results indicate that the model is less sensitive to the varying instructions after finetuning on a diverse set of tasks and instructions for each task.
Abstract（参考訳）: 命令によって指定されたタスクで事前訓練された言語モデルを微調整する新しい学習パラダイムであるインストラクションチューニングは、様々な自然言語処理タスクでゼロショット性能を約束している。しかし、ビジョンやマルチモーダルタスクについては、まだ検討されていない。本稿では,11のカテゴリをカバーする47の多様なマルチモーダルタスクからなる,最初のマルチモーダル命令チューニングベンチマークデータセットであるmultiinstructを紹介する。各タスクは、既存のオープンソースデータセットから5,000のインスタンス(インプットアウトペア)と5つの専門家による命令で設計されている。我々は,OFAをマルチモーダル・インストラクション・チューニングの基礎となる事前学習モデルとみなし,その性能を向上させるために,大規模なNatural Instructionsデータセットを活用するために複数のトランスファー学習戦略を検討する。実験の結果,未認識のマルチモーダルタスクにおけるゼロショット性能が強く,テキストのみの命令からの転送学習の利点が示された。また、モデルが様々な命令に対してどれほど敏感であるかを評価するために、感性という新しい評価指標も設計する。本結果から,各タスクに対する多様なタスクや命令を微調整した後,モデルが様々な命令に敏感でないことが示唆された。

関連論文リスト

MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2024-12-06T18:14:24Z)
MLAN: Language-Based Instruction Tuning Improves Zero-Shot Generalization of Multimodal Large Language Models [79.0546136194314]
マルチモーダルな大規模言語モデルのゼロショットタスクの一般化を改善するために,新しい命令チューニング手法を提案する。提案手法の有効性を,言語と視覚の両面にまたがる9つの未知のデータセットに対して評価した。
論文参考訳（メタデータ） (2024-11-15T20:09:59Z)
MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity [80.02202386597138]
高品質で多様な視覚指導訓練データセットMMInstructを構築し、24ドメインの973K命令で構成されている。提案する命令生成エンジンは,手作業のコストで半自動,低コスト,マルチドメインの命令生成を可能にする。
論文参考訳（メタデータ） (2024-07-22T17:55:22Z)
The SIFo Benchmark: Investigating the Sequential Instruction Following Ability of Large Language Models [48.455388608863785]
本稿では,複数の命令を逐次的に追従するモデルの性能を評価するためのベンチマークを提案する。我々のベンチマークは,4つのタスク(テキスト修正,質問応答,数学,セキュリティルール)を用いて,指示に従うことを評価する。より最近のモデルでは、SIFoタスクにおいて、より古いモデルやより小さなモデルよりも大幅に優れており、ベンチマークの有効性が検証されている。
論文参考訳（メタデータ） (2024-06-28T15:34:26Z)
From Symbolic Tasks to Code Generation: Diversification Yields Better Task Performers [1.6958018695660049]
コードに関連するタスクを超えて、より多様な命令セットがコード生成のパフォーマンスを向上させることを示す。我々の観察から,命令調整セットのより多様な意味空間が,命令に従う能力とタスクの実行能力を大幅に向上させることが示唆された。
論文参考訳（メタデータ） (2024-05-30T07:54:07Z)
Mosaic-IT: Free Compositional Data Augmentation Improves Instruction Tuning [30.82220015525281]
モザイクインストラクションチューニング(Mosaic Instruction Tuning、モザイクインストラクションチューニング、Mosaic-IT)は、人間/モデルなしのコンポジションデータ拡張手法である。 Mosaic-ITは、既存の命令チューニングデータから、ランダムにリッチで多様な拡張を生成する。評価の結果,モザイクITの性能と訓練効率が向上した。
論文参考訳（メタデータ） (2024-05-22T04:08:20Z)
Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文参考訳（メタデータ） (2024-03-14T16:47:25Z)
Towards Robust Instruction Tuning on Multimodal Large Language Models [25.506776502317436]
本研究では,マルチモーダルタスクにおいて,INSTRAUGという自動命令拡張手法を導入する。 2つの人気のあるマルチモーダル命令フォローベンチマークの結果、INSTRAUGは12のマルチモーダルタスク間でのMLLM(Multimodal Large Language Model)のアライメントを大幅に改善できることが示された。
論文参考訳（メタデータ） (2024-02-22T12:35:50Z)
MM-BigBench: Evaluating Multimodal Models on Multimodal Content Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文参考訳（メタデータ） (2023-10-13T11:57:04Z)
CINS: Comprehensive Instruction for Few-shot Learning in Task-oriented Dialog Systems [56.302581679816775]
本稿では,タスク固有の命令でPLMを利用する包括的インストラクション(CINS)を提案する。命令のスキーマ(定義、制約、プロンプト)と、ToDの3つの重要な下流タスクに対するカスタマイズされた実現を設計する。これらのToDタスクに対して,小さな検証データを用いた現実的な数ショット学習シナリオで実験を行った。
論文参考訳（メタデータ） (2021-09-10T03:23:06Z)
Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for Multimodal Sentiment Analysis [11.368438990334397]
我々は,独立した一助的指導を受けるための自己指導型学習戦略を開発する。我々は3つの公開マルチモーダルベースラインデータセットについて広範な実験を行った。提案手法は,人間の注釈付きアンモダルラベルと同等の性能を達成している。
論文参考訳（メタデータ） (2021-02-09T14:05:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。