論文の概要: VILA: On Pre-training for Visual Language Models
- arxiv url: http://arxiv.org/abs/2312.07533v1
- Date: Tue, 12 Dec 2023 18:58:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 14:38:58.462793
- Title: VILA: On Pre-training for Visual Language Models
- Title(参考訳): VILA:ビジュアル言語モデルの事前トレーニングについて
- Authors: Ji Lin, Hongxu Yin, Wei Ping, Yao Lu, Pavlo Molchanov, Andrew Tao,
Huizi Mao, Jan Kautz, Mohammad Shoeybi, Song Han
- Abstract要約: ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
- 参考スコア(独自算出の注目度): 76.545284695932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual language models (VLMs) rapidly progressed with the recent success of
large language models. There have been growing efforts on visual instruction
tuning to extend the LLM with visual inputs, but lacks an in-depth study of the
visual language pre-training process, where the model learns to perform joint
modeling on both modalities. In this work, we examine the design options for
VLM pre-training by augmenting LLM towards VLM through step-by-step
controllable comparisons. We introduce three main findings: (1) freezing LLMs
during pre-training can achieve decent zero-shot performance, but lack
in-context learning capability, which requires unfreezing the LLM; (2)
interleaved pre-training data is beneficial whereas image-text pairs alone are
not optimal; (3) re-blending text-only instruction data to image-text data
during instruction fine-tuning not only remedies the degradation of text-only
tasks, but also boosts VLM task accuracy. With an enhanced pre-training recipe
we build VILA, a Visual Language model family that consistently outperforms the
state-of-the-art models, e.g., LLaVA-1.5, across main benchmarks without bells
and whistles. Multi-modal pre-training also helps unveil appealing properties
of VILA, including multi-image reasoning, enhanced in-context learning, and
better world knowledge.
- Abstract(参考訳): ビジュアル言語モデル(vlms)は、最近大きな言語モデルの成功とともに急速に進歩した。
視覚的インプットでLLMを拡張するための視覚的インストラクションチューニングへの取り組みが増えているが、両モードで共同モデリングを行うことを学ぶ視覚言語事前学習プロセスの詳細な研究は欠如している。
本研究では, ステップバイステップ制御可能な比較により, LLM を VLM へ拡張することで, VLM の事前学習のための設計オプションを検討する。
1) 事前学習中のLLMの凍結は,ゼロショット性能が向上するが,LLMの凍結を必要とする非コンテキスト学習能力が欠如していること,(2) インターリーブされた事前学習データが有用であるのに対して,画像とテキストのペアだけでは最適ではないこと,(3) 微調整時に画像テキストデータにテキストのみの命令データを再解釈することで,テキストのみのタスクの劣化を軽減できるだけでなく,VLMタスクの精度も向上する,という3つの主な結果を紹介した。
強化された事前トレーニングレシピでは、Visual LanguageモデルファミリであるVILAを構築し、ベルやホイッスルを使わずに主要なベンチマークで最先端のモデル、例えばLLaVA-1.5を一貫して上回ります。
マルチモーダル事前学習は、マルチイメージ推論、強化されたコンテキスト内学習、より良い世界知識を含む、VILAの魅力的な特性を明らかにするのに役立つ。
関連論文リスト
- Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning [78.19528555505961]
本稿では,LCL(Latent Compression Learning)と呼ばれる視覚モデル事前学習手法を提案する。
学習対象は,1)視覚表現と先行文脈の対比学習,2)視覚表現に基づく後続テキストの生成という2つの基本課題に分解することができる。
実験により,本手法は,ペア付き事前学習データセット上でのCLIPの性能に適合するだけでなく,インターリーブ付き事前学習データの活用も可能であることが示された。
論文 参考訳(メタデータ) (2024-06-11T17:59:35Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Context-Aware Prompt Tuning for Vision-Language Model with
Dual-Alignment [15.180715595425864]
我々は、事前学習された大言語モデル(LLM)を組み込むことで、視覚言語モデルの迅速な学習を改善する新しい手法を提案する。
DuAl-PTでは、明示的および暗黙的両方のコンテキストモデリングの恩恵を受けながら、よりコンテキスト対応のプロンプトを学習することを提案する。
実証的には、DuAl-PTは、数ショットの認識とベース・ツー・ニューな一般化で、11のダウンストリームデータセット上で優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-09-08T06:51:15Z) - SimVLM: Simple Visual Language Model Pretraining with Weak Supervision [48.98275876458666]
SimVLM(Simple Visual Language Model)という,最小限の事前学習フレームワークを提案する。
SimVLMは、大規模な弱監視を活用することで、トレーニングの複雑さを低減する。
様々な識別的および生成的視覚言語ベンチマークにおいて、最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2021-08-24T18:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。