論文の概要: MLAN: Language-Based Instruction Tuning Improves Zero-Shot Generalization of Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2411.10557v2
- Date: Tue, 19 Nov 2024 05:16:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:37:10.395186
- Title: MLAN: Language-Based Instruction Tuning Improves Zero-Shot Generalization of Multimodal Large Language Models
- Title(参考訳): MLAN:マルチモーダル大言語モデルのゼロショット一般化を改善する言語ベースインストラクションチューニング
- Authors: Jianhong Tu, Zhuohao Ni, Nicholas Crispino, Zihao Yu, Michael Bendersky, Beliz Gunel, Ruoxi Jia, Xin Liu, Lingjuan Lyu, Dawn Song, Chenguang Wang,
- Abstract要約: マルチモーダルな大規模言語モデルのゼロショットタスクの一般化を改善するために,新しい命令チューニング手法を提案する。
提案手法の有効性を,言語と視覚の両面にまたがる9つの未知のデータセットに対して評価した。
- 参考スコア(独自算出の注目度): 79.0546136194314
- License:
- Abstract: We present a novel instruction tuning recipe to improve the zero-shot task generalization of multimodal large language models. In contrast to existing instruction tuning mechanisms that heavily rely on visual instructions, our approach focuses on language-based instruction tuning, offering a distinct and more training efficient path for multimodal instruction tuning. We evaluate the performance of the proposed approach on 9 unseen datasets across both language and vision modalities. Our results show that our language-only instruction tuning is able to significantly improve the performance of two pretrained multimodal models based on Llama 2 and Vicuna on those unseen datasets. Interestingly, the language instruction following ability also helps unlock the models to follow vision instructions without explicit training. Compared to the state of the art multimodal instruction tuning approaches that are mainly based on visual instructions, our language-based method not only achieves superior performance but also significantly enhances training efficiency. For instance, the language-only instruction tuning produces competitive average performance across the evaluated datasets (with even better performance on language datasets) with significant training efficiency improvements (on average 4x), thanks to the striking reduction in the need for vision data. With a small number of visual instructions, this emerging language instruction following ability transfers well to the unseen vision datasets, outperforming the state of the art with greater training efficiency.
- Abstract(参考訳): マルチモーダルな大規模言語モデルのゼロショットタスクの一般化を改善するために,新しい命令チューニング手法を提案する。
視覚的指示に大きく依存する既存の命令チューニング機構とは対照的に,本手法は言語に基づく命令チューニングに重点を置いている。
提案手法の有効性を,言語と視覚の両面にまたがる9つの未知のデータセットに対して評価した。
この結果から,Llama 2 と Vicuna をベースとした2つの事前学習型マルチモーダルモデルの性能は,言語のみのチューニングチューニングにより大幅に向上することが示唆された。
興味深いことに、言語命令に従う能力は、明示的なトレーニングなしでビジョン命令に従うためにモデルをアンロックするのに役立ちます。
ビジュアルインストラクションを主とする最先端のマルチモーダル・チューニング・チューニング・アプローチと比較して,我々の言語ベースの手法は優れた性能を達成できるだけでなく,トレーニング効率を大幅に向上させる。
例えば、言語のみのインストラクションチューニングでは、(言語データセットのパフォーマンスが向上した)評価データセット間の競争平均のパフォーマンスが向上し、(平均4倍の)トレーニング効率が大幅に向上した。
少数のビジュアルインストラクションによって、この新興言語命令に続く能力は、目に見えないビジョンデータセットにうまく移行し、より訓練効率の高い最先端技術よりも優れています。
関連論文リスト
- Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
SIMAは、自己改善を通じて視覚的および言語的モダリティアライメントを強化するフレームワークである。
コンテキスト内自己批判機構を使用して、プライオリティチューニングのためのレスポンスペアを選択する。
SIMAは従来の手法よりも優れたモダリティアライメントを実現することを実証する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - Towards Robust Instruction Tuning on Multimodal Large Language Models [25.506776502317436]
本研究では,マルチモーダルタスクにおいて,INSTRAUGという自動命令拡張手法を導入する。
2つの人気のあるマルチモーダル命令フォローベンチマークの結果、INSTRAUGは12のマルチモーダルタスク間でのMLLM(Multimodal Large Language Model)のアライメントを大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-02-22T12:35:50Z) - Language Grounded QFormer for Efficient Vision Language Understanding [25.432918254523344]
BLIP-2モデルで提案したクエリトランスフォーマー(QFormer)アプローチから着想を得た。
より効率的なQFormerベースの視覚言語アライメント法を提案する。
論文 参考訳(メタデータ) (2023-11-13T16:30:49Z) - InstructBLIP: Towards General-purpose Vision-Language Models with
Instruction Tuning [43.54069813039309]
我々は、事前訓練されたBLIP-2モデルに基づいて、視覚言語による指導のチューニングについて研究する。
InstructBLIPは、13のホールトアウトデータセットすべてにわたって、最先端のゼロショットパフォーマンスを実現する。
私たちのモデルは、個々の下流タスクに微調整された場合、最先端のパフォーマンスももたらします。
論文 参考訳(メタデータ) (2023-05-11T00:38:10Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - LICHEE: Improving Language Model Pre-training with Multi-grained
Tokenization [19.89228774074371]
本稿では,入力テキストの多粒度情報を効率的に組み込むための,シンプルで効果的な事前学習手法であるlicHEEを提案する。
本手法は,様々な事前学習言語モデルに適用でき,その表現能力を向上させることができる。
論文 参考訳(メタデータ) (2021-08-02T12:08:19Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z) - DIET: Lightweight Language Understanding for Dialogue Systems [0.0]
大規模な事前学習型言語モデルは、GLUEやSuperGLUEのような言語理解ベンチマークにおいて、驚くべき結果を示している。
本稿では,Dual Intent and Entity Transformer (DIET)アーキテクチャを導入し,意図と実体予測に対する事前学習表現の有効性について検討する。
論文 参考訳(メタデータ) (2020-04-21T12:10:48Z) - Balancing Training for Multilingual Neural Machine Translation [130.54253367251738]
多言語機械翻訳(MT)モデルは、複数の言語に翻訳/翻訳することができる。
標準的なプラクティスは、表現力を高めるために、リソースの少ない言語をアップサンプルすることである。
そこで本研究では,データスコアラによるトレーニングデータの重み付けを自動的に学習する手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T18:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。