論文の概要: Enhancing Large Vision Language Models with Self-Training on Image Comprehension
- arxiv url: http://arxiv.org/abs/2405.19716v1
- Date: Thu, 30 May 2024 05:53:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 17:57:08.502267
- Title: Enhancing Large Vision Language Models with Self-Training on Image Comprehension
- Title(参考訳): 画像理解に基づく自己学習による大規模視覚言語モデルの強化
- Authors: Yihe Deng, Pan Lu, Fan Yin, Ziniu Hu, Sheng Shen, James Zou, Kai-Wei Chang, Wei Wang,
- Abstract要約: 本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
- 参考スコア(独自算出の注目度): 99.9389737339175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision language models (LVLMs) integrate large language models (LLMs) with pre-trained vision encoders, thereby activating the perception capability of the model to understand image inputs for different queries and conduct subsequent reasoning. Improving this capability requires high-quality vision-language data, which is costly and labor-intensive to acquire. Self-training approaches have been effective in single-modal settings to alleviate the need for labeled data by leveraging model's own generation. However, effective self-training remains a challenge regarding the unique visual perception and reasoning capability of LVLMs. To address this, we introduce Self-Training on Image Comprehension (STIC), which emphasizes a self-training approach specifically for image comprehension. First, the model self-constructs a preference dataset for image descriptions using unlabeled images. Preferred responses are generated through a step-by-step prompt, while dis-preferred responses are generated from either corrupted images or misleading prompts. To further self-improve reasoning on the extracted visual information, we let the model reuse a small portion of existing instruction-tuning data and append its self-generated image descriptions to the prompts. We validate the effectiveness of STIC across seven different benchmarks, demonstrating substantial performance gains of 4.0% on average while using 70% less supervised fine-tuning data than the current method. Further studies investigate various components of STIC and highlight its potential to leverage vast quantities of unlabeled images for self-training. Code and data are made publicly available.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、大規模言語モデル(LLM)と事前訓練された視覚エンコーダを統合し、異なるクエリに対する画像入力を理解し、その後の推論を実行するためにモデルの知覚能力を活性化する。
この能力を改善するには、高品質の視覚言語データが必要です。
自己学習アプローチは、モデル自身の世代を活用してラベル付きデータの必要性を軽減するために、単一モード設定で有効である。
しかし、LVLMのユニークな視覚知覚と推論能力に関して、効果的な自己学習は依然として課題である。
そこで本稿では,画像理解のための自己学習手法であるSTIC(Self-Training on Image Comprehension)を紹介する。
まず、ラベルなし画像を用いた画像記述のための嗜好データセットを自己構築する。
優先応答はステップバイステッププロンプトを介して生成され、非優先応答は、破損した画像または誤解を招くプロンプトから生成される。
抽出した視覚情報に基づく推論をさらに自己改善するために、既存の命令チューニングデータのごく一部を再利用し、その自己生成画像記述をプロンプトに付加する。
本研究では,7つのベンチマークにおいてSTICの有効性を検証し,従来の手法よりも70%少ない教師付き微調整データを用いて,平均4.0%の性能向上を示した。
さらに、STICの様々なコンポーネントについて検討し、ラベルのない大量の画像を自己学習に活用する可能性を強調した。
コードとデータは公開されています。
関連論文リスト
- CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
SIMAは、自己改善を通じて視覚的および言語的モダリティアライメントを強化するフレームワークである。
コンテキスト内自己批判機構を使用して、プライオリティチューニングのためのレスポンスペアを選択する。
SIMAは従来の手法よりも優れたモダリティアライメントを実現することを実証する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - Calibrated Self-Rewarding Vision Language Models [27.686545023186852]
LVLM(Large Vision-Language Models)は、訓練済みの大規模言語モデル(LLM)と視覚モデルを統合することで、指導チューニングを通じて大幅に進歩した。
LVLMは、しばしば幻覚現象を示し、生成されたテキスト応答は言語的に妥当に見えるが、入力画像に矛盾する。
本稿では,候補応答を反復的に生成し,各応答に対する報酬を評価し,微調整のための選好データをキュレートすることで,モデルの自己改善を可能にするCalibrated Self-Rewarding(CSR)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-23T14:30:33Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - TOV: The Original Vision Model for Optical Remote Sensing Image
Understanding via Self-supervised Learning [13.57667361338603]
リモートセンシングにおけるtextbfOriginal textbfVision Model (TOV) を提案する。
人のような自己教師付き学習経路に沿って、巨大なラベルのない光学データによって訓練されたTOVモデルは、様々なRSIUタスクに容易に適応できる。
RSIUのTOVモデル構築における2つの要因の影響を分析する。
論文 参考訳(メタデータ) (2022-04-10T16:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。