論文の概要: $VILA^2$: VILA Augmented VILA
- arxiv url: http://arxiv.org/abs/2407.17453v1
- Date: Wed, 24 Jul 2024 17:37:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 12:55:41.691702
- Title: $VILA^2$: VILA Augmented VILA
- Title(参考訳): $VILA^2$: VILA Augmented VILA
- Authors: Yunhao Fang, Ligeng Zhu, Yao Lu, Yan Wang, Pavlo Molchanov, Jang Hyun Cho, Marco Pavone, Song Han, Hongxu Yin,
- Abstract要約: 我々は、データ品質とモデル性能を改善するための自己拡張ステップとスペシャリスト強化ステップを含む、新しいアプローチを導入する。
自己拡張ステップでは、VLMは、データ品質を向上させるために、独自の事前トレーニングデータを取得し、その後、この洗練されたデータセットを使用してスクラッチから再トレーニングし、モデルパフォーマンスを改善する。
自己強化訓練と専門訓練を組み合わせたVLMファミリーであるVILA2$ (VILA-augmented-VILA)を導入する。
- 参考スコア(独自算出の注目度): 39.7645911507078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual language models (VLMs) have rapidly progressed, driven by the success of large language models (LLMs). While model architectures and training infrastructures advance rapidly, data curation remains under-explored. When data quantity and quality become a bottleneck, existing work either directly crawls more raw data from the Internet that does not have a guarantee of data quality or distills from black-box commercial models (e.g., GPT-4V / Gemini) causing the performance upper bounded by that model. In this work, we introduce a novel approach that includes a self-augment step and a specialist-augment step to iteratively improve data quality and model performance. In the self-augment step, a VLM recaptions its own pretraining data to enhance data quality, and then retrains from scratch using this refined dataset to improve model performance. This process can iterate for several rounds. Once self-augmentation saturates, we employ several specialist VLMs finetuned from the self-augmented VLM with domain-specific expertise, to further infuse specialist knowledge into the generalist VLM through task-oriented recaptioning and retraining. With the combined self-augmented and specialist-augmented training, we introduce $VILA^2$ (VILA-augmented-VILA), a VLM family that consistently improves the accuracy on a wide range of tasks over prior art, and achieves new state-of-the-art results on MMMU leaderboard among open-sourced models.
- Abstract(参考訳): 視覚言語モデル(VLM)は、大きな言語モデル(LLM)の成功によって急速に進歩している。
モデルアーキテクチャとトレーニングインフラストラクチャは急速に進歩するが、データキュレーションは未検討のままである。
データ量と品質がボトルネックになると、既存の作業は、データ品質の保証のないインターネットから直接、あるいはブラックボックスの商用モデル(例えば、GPT-4V / Gemini)から蒸留されたデータを直接クロールする。
本研究では,データ品質とモデル性能を反復的に改善するための,自己拡張ステップとスペシャリスト強化ステップを含む新しいアプローチを提案する。
自己拡張ステップでは、VLMは、データ品質を向上させるために、独自の事前トレーニングデータを取得し、その後、この洗練されたデータセットを使用してスクラッチから再トレーニングし、モデルパフォーマンスを改善する。
このプロセスは、いくつかのラウンドで繰り返します。
一度自己拡張が飽和すると、ドメイン固有の専門知識を持つ自己拡張型VLMから微調整された複数の専門的なVLMを使用し、タスク指向の再カプセル化と再訓練を通じて、専門的な知識を一般のVLMに注入する。
自己強化型および専門的強化型トレーニングを併用したVLMファミリーであるVILA^2$ (VILA-augmented-VILA) を導入する。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - C3L: Content Correlated Vision-Language Instruction Tuning Data Generation via Contrastive Learning [45.233150828317164]
コントラスト学習(C3L)によるコンテンツ関連VLITデータ生成を提案する。
具体的には、VLITデータと画像間のコンテンツ関連性を高める新しいコンテンツ関連モジュールを設計する。
LVLMのVLITデータ生成能力をさらに向上させるために、対照的な学習モジュールが導入された。
論文 参考訳(メタデータ) (2024-05-21T13:04:10Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Imputing Knowledge Tracing Data with Subject-Based Training via LSTM
Variational Autoencoders Frameworks [6.24828623162058]
我々は,行数分割の代わりに,学生IDによるデータ分割とインプットを行うために,主観的学習手法を採用した。
我々は既存の2つの深い生成フレームワーク、すなわち変分オートエンコーダ(VAE)と変分オートエンコーダ(LVAE)を活用している。
LSTM-VAE と LSTM-LVAE から生成したデータにより,元のモデルの性能を約50%向上できることを示す。
論文 参考訳(メタデータ) (2023-02-24T21:56:03Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - Fix your Models by Fixing your Datasets [0.6058427379240697]
現在の機械学習ツールは、データ品質を改善するための合理化されたプロセスを欠いている。
そこで,本研究では,データセットにノイズや誤認のあるサンプルを見つけるための体系的枠組みを提案する。
2つのFortune 500企業のプライベートエンタープライズデータセットと同様に、当社のフレームワークの有効性を公開してみます。
論文 参考訳(メタデータ) (2021-12-15T02:41:50Z) - DQI: Measuring Data Quality in NLP [22.54066527822898]
データ品質指標(DQI)の一般的な式を導入し、データセット作成者が望ましくないバイアスのないデータセットを作成するのを支援する。
SNLIデータセットを用いてトレーニングしたモデルが,分散タスクの外部に一般化できることが示される。
論文 参考訳(メタデータ) (2020-05-02T12:34:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。