論文の概要: VisLingInstruct: Elevating Zero-Shot Learning in Multi-Modal Language
Models with Autonomous Instruction Optimization
- arxiv url: http://arxiv.org/abs/2402.07398v1
- Date: Mon, 12 Feb 2024 04:13:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 15:43:40.907821
- Title: VisLingInstruct: Elevating Zero-Shot Learning in Multi-Modal Language
Models with Autonomous Instruction Optimization
- Title(参考訳): vislinginstruct: 自律的命令最適化によるマルチモーダル言語モデルにおけるゼロショット学習の促進
- Authors: Dongsheng Zhu, Xunzhu Tang, Weidong Han, Jinghui Lu, Yukun Zhao,
Guoliang Xing, Junfeng Wang, Dawei Yin
- Abstract要約: VisLingInstructは、ゼロショット学習においてマルチモーダル言語モデル(MMLM)を進化させる新しいアプローチである。
In-Context Learningを通じて、インストラクショナルテキストを自律的に評価し、最適化する。
TextVQAとHatefulMemesデータセットの先行技術よりも13.1%と9%の精度向上を実現している。
- 参考スコア(独自算出の注目度): 23.156102476688712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents VisLingInstruct, a novel approach to advancing
Multi-Modal Language Models (MMLMs) in zero-shot learning. Current MMLMs show
impressive zero-shot abilities in multi-modal tasks, but their performance
depends heavily on the quality of instructions. VisLingInstruct tackles this by
autonomously evaluating and optimizing instructional texts through In-Context
Learning, improving the synergy between visual perception and linguistic
expression in MMLMs. Alongside this instructional advancement, we have also
optimized the visual feature extraction modules in MMLMs, further augmenting
their responsiveness to textual cues. Our comprehensive experiments on MMLMs,
based on FlanT5 and Vicuna, show that VisLingInstruct significantly improves
zero-shot performance in visual multi-modal tasks. Notably, it achieves a 13.1%
and 9% increase in accuracy over the prior state-of-the-art on the TextVQA and
HatefulMemes datasets.
- Abstract(参考訳): 本稿では,ゼロショット学習におけるマルチモーダル言語モデル(MMLM)の新たなアプローチであるVisLingInstructを提案する。
現在のMMLMは、マルチモーダルタスクにおいて印象的なゼロショット能力を示すが、その性能は命令の品質に大きく依存する。
VisLingInstructは、インコンテクスト学習を通じて命令文を自律的に評価し、最適化することで、MMLMにおける視覚知覚と言語表現の相乗効果を改善する。
この指導の進展とともに、MMLMの視覚特徴抽出モジュールを最適化し、さらにテキストキューに対する応答性を高めた。
flant5 と vicuna に基づく mmlms の包括的実験により, vislinginstruct が視覚マルチモーダルタスクにおけるゼロショット性能を大幅に改善することを示した。
特に、TextVQAとHatefulMemesデータセットの先行技術よりも13.1%と9%の精度向上を実現している。
関連論文リスト
- Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and
Context-Aware Visual Speech Processing [61.95652444767649]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。
VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。
VSP-LLMは15時間のラベル付きデータでより効果的に唇の動きを認識・翻訳できることを示す。
論文 参考訳(メタデータ) (2024-02-23T07:21:32Z) - VILA: On Pre-training for Visual Language Models [76.545284695932]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - VIM: Probing Multimodal Large Language Models for Visual Embedded
Instruction Following [109.02943724765959]
MLLM(Multimodal Large Language Models)の機能に追従する視覚的命令を評価するための新しいフレームワークであるVISUAL EMBEDEDED INSTRUCTION (VIM)を紹介した。
VIMは、命令を視覚シーンに埋め込むことでMLLMに挑戦し、指示に従うために強力な視覚的解釈スキルを要求する。
我々は、VQAv2、MME、MM-Vet、RefCOCOシリーズなどの様々なベンチマークにVIMを適用し、VIMベンチを作成し、Zero Shot、One Shot、Pair Shotという3つの異なるコンテキスト内学習環境にまたがる多様なMLLMを探索する。
論文 参考訳(メタデータ) (2023-11-29T14:08:53Z) - What Makes for Good Visual Instructions? Synthesizing Complex Visual
Reasoning Instructions for Visual Instruction Tuning [115.19451843294154]
マルチモーダル大言語モデル(MLLM)のゼロショット一般化能力向上のためのビジュアルインストラクションチューニング
本稿では,高品質な視覚的推論命令を自動生成するための体系的アプローチを提案する。
我々のデータセットは、MME-CognitionにおけるMiniGPT-4とBLIP-2の性能をそれぞれ32.6%、28.8%向上させるなど、比較したMLLMの性能を一貫して向上させる。
論文 参考訳(メタデータ) (2023-11-02T15:36:12Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z) - MIMIC-IT: Multi-Modal In-Context Instruction Tuning [44.879418596312554]
本稿では,280万のマルチモーダル・インストラクション・レスポンス・ペアからなるデータセットについて述べる。
MIMIC-ITデータセットを用いて、Otterはマルチモーダル認識、推論、文脈内学習において顕著な習熟度を示した。
我々はMIMIC-ITデータセット、命令応答型コレクションパイプライン、ベンチマーク、オッターモデルをリリースする。
論文 参考訳(メタデータ) (2023-06-08T17:59:56Z) - MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction
Tuning [24.741736629886564]
インストラクションチューニングは、命令によって指定されたタスクで事前訓練された言語モデルを微調整する新しい学習パラダイムである。
MUL-TIINSTRUCTは,最初のマルチモーダル・インストラクション・チューニング・ベンチマーク・データセットである。
各種マルチモーダルタスクにおけるゼロショット性能と,テキストのみの命令データセットからの変換学習の利点を示す。
論文 参考訳(メタデータ) (2022-12-21T05:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。