論文の概要: C3L: Content Correlated Vision-Language Instruction Tuning Data Generation via Contrastive Learning
- arxiv url: http://arxiv.org/abs/2405.12752v1
- Date: Tue, 21 May 2024 13:04:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 13:19:55.423565
- Title: C3L: Content Correlated Vision-Language Instruction Tuning Data Generation via Contrastive Learning
- Title(参考訳): C3L:コントラスト学習によるコンテンツ関連視覚言語指導データ生成
- Authors: Ji Ma, Wei Suo, Peng Wang, Yanning Zhang,
- Abstract要約: コントラスト学習(C3L)によるコンテンツ関連VLITデータ生成を提案する。
具体的には、VLITデータと画像間のコンテンツ関連性を高める新しいコンテンツ関連モジュールを設計する。
LVLMのVLITデータ生成能力をさらに向上させるために、対照的な学習モジュールが導入された。
- 参考スコア(独自算出の注目度): 45.233150828317164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Instruction Tuning (VLIT) is a critical training phase for Large Vision-Language Models (LVLMs). With the improving capabilities of open-source LVLMs, researchers have increasingly turned to generate VLIT data by using open-source LVLMs and achieved significant progress. However, such data generation approaches are bottlenecked by the following challenges: 1) Since multi-modal models tend to be influenced by prior language knowledge, directly using LVLMs to generate VLIT data would inevitably lead to low content relevance between generated data and images. 2) To improve the ability of the models to generate VLIT data, previous methods have incorporated an additional training phase to boost the generative capacity. This process hurts the generalization of the models to unseen inputs (i.e., "exposure bias" problem). In this paper, we propose a new Content Correlated VLIT data generation via Contrastive Learning (C3L). Specifically, we design a new content relevance module which enhances the content relevance between VLIT data and images by computing Image Instruction Correspondence Scores S(I2C). Moreover, a contrastive learning module is introduced to further boost the VLIT data generation capability of the LVLMs. A large number of automatic measures on four benchmarks show the effectiveness of our method.
- Abstract(参考訳): VLIT(Vision-Language Instruction Tuning)は、LVLM(Large Vision-Language Models)の重要なトレーニングフェーズである。
オープンソースのLVLMの改善により、研究者たちは、オープンソースのLVLMを使用してVLITデータを生成するようになり、大きな進歩を遂げた。
しかし、このようなデータ生成アプローチは以下の課題によってボトルネックとなる。
1) マルチモーダルモデルは事前の言語知識の影響を受けやすいため, 直接LVLMを用いてVLITデータを生成すると, 生成したデータと画像間の低コンテンツ関連性が必然的に生じる。
2) VLITデータの生成能力を向上させるため, 従来の手法では, 生成能力を高めるための追加のトレーニングフェーズが組み込まれている。
このプロセスは、モデルが目に見えない入力(すなわち「露出バイアス」問題)に一般化するのを損なう。
本稿では,コントラスト学習(C3L)によるコンテンツ関連VLITデータ生成を提案する。
具体的には、画像インストラクション対応スコアS(I2C)を演算することで、VLITデータと画像間のコンテンツ関連性を高める新しいコンテンツ関連モジュールを設計する。
さらに,LVLMのVLITデータ生成能力をさらに向上するために,コントラスト学習モジュールを導入する。
4つのベンチマークで多数の自動測定を行った結果,本手法の有効性が示された。
関連論文リスト
- $VILA^2$: VILA Augmented VILA [39.7645911507078]
我々は、データ品質とモデル性能を改善するための自己拡張ステップとスペシャリスト強化ステップを含む、新しいアプローチを導入する。
自己拡張ステップでは、VLMは、データ品質を向上させるために、独自の事前トレーニングデータを取得し、その後、この洗練されたデータセットを使用してスクラッチから再トレーニングし、モデルパフォーマンスを改善する。
自己強化訓練と専門訓練を組み合わせたVLMファミリーであるVILA2$ (VILA-augmented-VILA)を導入する。
論文 参考訳(メタデータ) (2024-07-24T17:37:05Z) - Concept-skill Transferability-based Data Selection for Large Vision-Language Models [56.0725292404808]
視覚言語モデルを学習するための効果的でスケーラブルなデータ選択手法であるCOINCIDEを紹介する。
我々は,目標LVLMに必要な概念スキル構成を識別する小型モデルからの内部アクティベーションを用いて,トレーニングデータをクラスタ化する。
実験により、COINCIDEは8つの強いベースラインに対して、優れた性能とデータ選択効率を実現することが示された。
論文 参考訳(メタデータ) (2024-06-16T16:15:20Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Vision-Language Instruction Tuning: A Review and Analysis [52.218690619616474]
VLIT(Vision-Language Instruction Tuning)は、純粋なテキスト命令チューニングよりも複雑な特徴を示す。
既存のVLITデータセットの詳細な分類と、高品質なVLITデータが持つべき特性を識別する。
これらの特徴を既存のVLITデータ構築プロセスに導出する原理として取り入れることで、我々は広範囲な実験を行い、調整されたマルチモーダルLCMの性能に対する肯定的な影響を検証した。
論文 参考訳(メタデータ) (2023-11-14T14:02:32Z) - VIGC: Visual Instruction Generation and Correction [47.477290387002284]
視覚言語タスクのための高品質なインストラクションチューニングデータの不足は依然として課題である。
LLaVAのような現在の主要なパラダイムは、データを生成するために言語のみのGPT-4に依存している。
本稿では,マルチモーダルな大規模言語モデルによる命令調整データの生成を可能にするビジュアルインストラクション生成と補正フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T11:21:05Z) - Improving Commonsense in Vision-Language Models via Knowledge Graph
Riddles [83.41551911845157]
本稿では,近年普及している視覚言語モデル(VL)のコモンセンス能力の解析と改善に焦点をあてる。
我々は、よりスケーラブルな戦略、すなわち、CommonsensE機能のためのkNowledgeグラフ線形化によるデータ拡張を提案する(DANCE)。
より優れたコモンセンス評価のために,検索に基づく最初のコモンセンス診断ベンチマークを提案する。
論文 参考訳(メタデータ) (2022-11-29T18:59:59Z) - Teaching Structured Vision&Language Concepts to Vision&Language Models [46.344585368641006]
SVLC(Structured Vision&Language Concepts)の概念について紹介する。
SVLCは、オブジェクト属性、関係、および、テキストに存在し、画像で見える状態を含む。
本稿では,VLモデルのSVLC理解を高めるための,よりエレガントなデータ駆動手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。