論文の概要: VILA$^2$: VILA Augmented VILA
- arxiv url: http://arxiv.org/abs/2407.17453v2
- Date: Thu, 31 Oct 2024 23:23:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 15:12:19.947623
- Title: VILA$^2$: VILA Augmented VILA
- Title(参考訳): VILA$^2$: VILA Augmented VILA
- Authors: Yunhao Fang, Ligeng Zhu, Yao Lu, Yan Wang, Pavlo Molchanov, Jan Kautz, Jang Hyun Cho, Marco Pavone, Song Han, Hongxu Yin,
- Abstract要約: 自己拡張ステップとスペシャリスト強化ステップを含む,単純で効果的なVLM拡張スキームを導入する。
3ラウンドの自己拡張ラウンドでデータ品質と下流精度の向上を観察する。
VLMの専門家は、空間、接地、OCRなどドメイン固有の専門家とともに自己拡張VLMから抽出し、タスク認識合成データを事前学習段階に融合させる。
- 参考スコア(独自算出の注目度): 69.5318347688297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While visual language model architectures and training infrastructures advance rapidly, data curation remains under-explored where quantity and quality become a bottleneck. Existing work either crawls extra Internet data with a loose guarantee of quality or distills from black-box proprietary models, e.g., GPT-4V / Gemini that are API frequency and performance bounded. This work enables a VLM to improve itself via data enhancement, exploiting its generative nature. We introduce a simple yet effective VLM augmentation scheme that includes a self-augment step and a specialist-augment step to iteratively improve data quality and hence, model performance. In the self-augment step, the instruction-finetuned VLM recaptions its pretraining caption datasets and then retrains from scratch leveraging refined data. Without any expensive human-in-the-loop annotation, we observe improvements in data quality and downstream accuracy boosts with three self-augmentation rounds -- a viable free lunch to the current VLM training recipe. When self-augmentation saturates, we augment the caption diversity by leveraging specialty skills picked up from instruction finetuning. We finetune VLM specialists from the self-augmented VLM with domain-specific experts, including spatial, grounding, and OCR, to fuse task-aware synthetic data into the pretraining stage. Data quality improvements and hallucination reductions are cross-checked by VLM (GPT-4V, Gemini) and human judges. Combining self-augmentation and specialist-augmented training, VILA$^2$ consistently improves the accuracy on a wide range of benchmarks over the prior art, producing a reusable pretraining dataset that is 300x more cost-efficient than human labeling.
- Abstract(参考訳): ビジュアル言語モデルアーキテクチャとトレーニングインフラストラクチャが急速に進歩する一方、データキュレーションは、量と品質がボトルネックとなる部分で未探索のままである。
既存の作業は、品質の保証が緩く、余分なインターネットデータをクロールするか、API頻度とパフォーマンスが制限されたブラックボックスプロプライエタリなモデル(例えば、GPT-4V / Gemini)から蒸留する。
この作業により、VLMはその生成特性を利用して、データ拡張を通じて自身を改善することができる。
我々は、データ品質を反復的に改善し、従ってモデル性能を向上させるための自己拡張ステップとスペシャリスト強化ステップを含む、単純で効果的なVLM拡張スキームを導入する。
自己拡張ステップでは、命令を微調整したVLMは、プレトレーニングされたキャプションデータセットを復元し、洗練されたデータを利用してスクラッチから再トレーニングする。
高価なHuman-in-the-loopアノテーションがなければ、3回の自己拡張ラウンドでデータ品質とダウンストリーム精度の向上が観察できます -- 現在のVLMトレーニングレシピに対する、実行可能な無償ランチです。
自己拡張が飽和すると,指導の微調整から習得した特技を活用してキャプションの多様性を高める。
VLMの専門家は、空間、接地、OCRなどドメイン固有の専門家とともに自己拡張VLMから抽出し、タスク認識合成データを事前学習段階に融合させる。
データ品質の改善と幻覚の低減は、VLM(GPT-4V, Gemini)と人間の審査員によって横断的に検証される。
自己拡張と専門的なトレーニングを組み合わせることで、VILA$^2$は、従来の技術よりも幅広いベンチマークの精度を一貫して向上させ、再利用可能な事前トレーニングデータセットを生成し、人間のラベルよりも300倍コスト効率が高い。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - Turbo: Informativity-Driven Acceleration Plug-In for Vision-Language Large Models [31.08312208507481]
Turboは、情報次数を参照するデータをソートするプラグインで、トップレベルのデータだけを使ってコストを節約する。
複数のVLMベンチマークにおいて,我々はTurboの良好な加速を無視可能な性能低下下で完全に実証する実験を行った。
論文 参考訳(メタデータ) (2024-07-16T13:35:26Z) - Mitigating Object Hallucination in Large Vision-Language Models via
Classifier-Free Guidance [56.04768229686853]
LVLM(Large Vision-Language Models)は、画像中の既存の物体を幻覚させる傾向がある。
私たちはclassifieR-Free guIdaNcE (MARINE)を介してMitigating HallucinAtionと呼ばれるフレームワークを導入する。
MARINEはトレーニングフリーかつAPIフリーであり、生成プロセス中のオブジェクト幻覚を効果的かつ効率的に低減することができる。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Turbo: Informativity-Driven Acceleration Plug-In for Vision-Language
Models [25.856254802834375]
本稿では,データ冗長性の重大さを先導し,情報次数で案内される1つのプラグアンドプレイモジュールを設計し,視覚的・テキスト的データから非効率なトークンを創出する。
Turboはユーザーフレンドリーなプラグインとして機能し、情報次数を参照するデータをソートする。
論文 参考訳(メタデータ) (2023-12-12T16:27:35Z) - Rethinking the Instruction Quality: LIFT is What You Need [20.829372251475476]
既存の品質改善手法は、データセットの拡張やキュレーションを通じて命令データを変更する。
本稿では,命令品質を新たな高さに高めるために設計された新しい多目的パラダイムであるLIFT(LLM Instruction Fusion Transfer)を提案する。
実験結果から, LLMは, パラダイムによって選択された高品質な命令データが少ない場合でも, 各種タスクにおける頑健な性能を一貫して維持することを示した。
論文 参考訳(メタデータ) (2023-12-12T03:30:21Z) - INGENIOUS: Using Informative Data Subsets for Efficient Pre-Training of
Language Models [40.54353850357839]
トレーニングコーパスの高度に代表的なサブセットを選択するために、サブモジュラー最適化を利用する方法を示す。
その結果,完全学習モデルの性能の最大$sim99%が得られた。
論文 参考訳(メタデータ) (2023-05-11T09:24:41Z) - On Automatic Data Augmentation for 3D Point Cloud Classification [19.338266486983176]
両レベル最適化を用いてデータ拡張戦略を自動学習することを提案する。
拡張器は条件付きジェネレータと同じような設計で、バリデーションセットにおけるベースモデルの損失を最小限に抑えて最適化される。
標準的なクラウド分類タスクに対する我々のアプローチと、トレーニングと検証/テストセットのミスアライメントによるより困難な設定について評価する。
論文 参考訳(メタデータ) (2021-12-11T17:14:16Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。