論文の概要: $VILA^2$: VILA Augmented VILA
- arxiv url: http://arxiv.org/abs/2407.17453v1
- Date: Wed, 24 Jul 2024 17:37:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 12:55:41.691702
- Title: $VILA^2$: VILA Augmented VILA
- Title(参考訳): $VILA^2$: VILA Augmented VILA
- Authors: Yunhao Fang, Ligeng Zhu, Yao Lu, Yan Wang, Pavlo Molchanov, Jang Hyun Cho, Marco Pavone, Song Han, Hongxu Yin,
- Abstract要約: 我々は、データ品質とモデル性能を改善するための自己拡張ステップとスペシャリスト強化ステップを含む、新しいアプローチを導入する。
自己拡張ステップでは、VLMは、データ品質を向上させるために、独自の事前トレーニングデータを取得し、その後、この洗練されたデータセットを使用してスクラッチから再トレーニングし、モデルパフォーマンスを改善する。
自己強化訓練と専門訓練を組み合わせたVLMファミリーであるVILA2$ (VILA-augmented-VILA)を導入する。
- 参考スコア(独自算出の注目度): 39.7645911507078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual language models (VLMs) have rapidly progressed, driven by the success of large language models (LLMs). While model architectures and training infrastructures advance rapidly, data curation remains under-explored. When data quantity and quality become a bottleneck, existing work either directly crawls more raw data from the Internet that does not have a guarantee of data quality or distills from black-box commercial models (e.g., GPT-4V / Gemini) causing the performance upper bounded by that model. In this work, we introduce a novel approach that includes a self-augment step and a specialist-augment step to iteratively improve data quality and model performance. In the self-augment step, a VLM recaptions its own pretraining data to enhance data quality, and then retrains from scratch using this refined dataset to improve model performance. This process can iterate for several rounds. Once self-augmentation saturates, we employ several specialist VLMs finetuned from the self-augmented VLM with domain-specific expertise, to further infuse specialist knowledge into the generalist VLM through task-oriented recaptioning and retraining. With the combined self-augmented and specialist-augmented training, we introduce $VILA^2$ (VILA-augmented-VILA), a VLM family that consistently improves the accuracy on a wide range of tasks over prior art, and achieves new state-of-the-art results on MMMU leaderboard among open-sourced models.
- Abstract(参考訳): 視覚言語モデル(VLM)は、大きな言語モデル(LLM)の成功によって急速に進歩している。
モデルアーキテクチャとトレーニングインフラストラクチャは急速に進歩するが、データキュレーションは未検討のままである。
データ量と品質がボトルネックになると、既存の作業は、データ品質の保証のないインターネットから直接、あるいはブラックボックスの商用モデル(例えば、GPT-4V / Gemini)から蒸留されたデータを直接クロールする。
本研究では,データ品質とモデル性能を反復的に改善するための,自己拡張ステップとスペシャリスト強化ステップを含む新しいアプローチを提案する。
自己拡張ステップでは、VLMは、データ品質を向上させるために、独自の事前トレーニングデータを取得し、その後、この洗練されたデータセットを使用してスクラッチから再トレーニングし、モデルパフォーマンスを改善する。
このプロセスは、いくつかのラウンドで繰り返します。
一度自己拡張が飽和すると、ドメイン固有の専門知識を持つ自己拡張型VLMから微調整された複数の専門的なVLMを使用し、タスク指向の再カプセル化と再訓練を通じて、専門的な知識を一般のVLMに注入する。
自己強化型および専門的強化型トレーニングを併用したVLMファミリーであるVILA^2$ (VILA-augmented-VILA) を導入する。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - Turbo: Informativity-Driven Acceleration Plug-In for Vision-Language Large Models [31.08312208507481]
Turboは、情報次数を参照するデータをソートするプラグインで、トップレベルのデータだけを使ってコストを節約する。
複数のVLMベンチマークにおいて,我々はTurboの良好な加速を無視可能な性能低下下で完全に実証する実験を行った。
論文 参考訳(メタデータ) (2024-07-16T13:35:26Z) - Mitigating Object Hallucination in Large Vision-Language Models via
Classifier-Free Guidance [56.04768229686853]
LVLM(Large Vision-Language Models)は、画像中の既存の物体を幻覚させる傾向がある。
私たちはclassifieR-Free guIdaNcE (MARINE)を介してMitigating HallucinAtionと呼ばれるフレームワークを導入する。
MARINEはトレーニングフリーかつAPIフリーであり、生成プロセス中のオブジェクト幻覚を効果的かつ効率的に低減することができる。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Turbo: Informativity-Driven Acceleration Plug-In for Vision-Language
Models [25.856254802834375]
本稿では,データ冗長性の重大さを先導し,情報次数で案内される1つのプラグアンドプレイモジュールを設計し,視覚的・テキスト的データから非効率なトークンを創出する。
Turboはユーザーフレンドリーなプラグインとして機能し、情報次数を参照するデータをソートする。
論文 参考訳(メタデータ) (2023-12-12T16:27:35Z) - Rethinking the Instruction Quality: LIFT is What You Need [20.829372251475476]
既存の品質改善手法は、データセットの拡張やキュレーションを通じて命令データを変更する。
本稿では,命令品質を新たな高さに高めるために設計された新しい多目的パラダイムであるLIFT(LLM Instruction Fusion Transfer)を提案する。
実験結果から, LLMは, パラダイムによって選択された高品質な命令データが少ない場合でも, 各種タスクにおける頑健な性能を一貫して維持することを示した。
論文 参考訳(メタデータ) (2023-12-12T03:30:21Z) - INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。
その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文 参考訳(メタデータ) (2023-05-11T09:24:41Z) - On Automatic Data Augmentation for 3D Point Cloud Classification [19.338266486983176]
両レベル最適化を用いてデータ拡張戦略を自動学習することを提案する。
拡張器は条件付きジェネレータと同じような設計で、バリデーションセットにおけるベースモデルの損失を最小限に抑えて最適化される。
標準的なクラウド分類タスクに対する我々のアプローチと、トレーニングと検証/テストセットのミスアライメントによるより困難な設定について評価する。
論文 参考訳(メタデータ) (2021-12-11T17:14:16Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。