論文の概要: GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks?
- arxiv url: http://arxiv.org/abs/2306.00693v2
- Date: Wed, 7 Jun 2023 13:59:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 17:56:14.259746
- Title: GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks?
- Title(参考訳): GPT4画像:大きな事前訓練されたモデルは知覚タスクの視覚モデルに役立つか?
- Authors: Ning Ding, Yehui Tang, Zhongqian Fu, Chao Xu, Kai Han, Yunhe Wang
- Abstract要約: 本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
- 参考スコア(独自算出の注目度): 51.22096780511165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent upsurge in pre-trained large models (e.g. GPT-4) has swept across
the entire deep learning community. Such powerful large language models (LLMs)
demonstrate advanced generative ability and multimodal understanding
capability, which quickly achieve new state-of-the-art performances on a
variety of benchmarks. The pre-trained LLM usually plays the role as a
universal AI model that can conduct various tasks, including context reasoning,
article analysis and image content comprehension. However, considering the
prohibitively high memory and computational cost for implementing such a large
model, the conventional models (such as CNN and ViT), are still essential for
many visual perception tasks. In this paper, we propose to enhance the
representation ability of ordinary vision models for perception tasks (e.g.
image classification) by taking advantage of large pre-trained models. We
present a new learning paradigm in which the knowledge extracted from large
pre-trained models are utilized to help models like CNN and ViT learn enhanced
representations and achieve better performance. Firstly, we curate a high
quality description set by prompting a multimodal LLM to generate descriptive
text for all training images. Furthermore, we feed these detailed descriptions
into a pre-trained encoder to extract text embeddings with rich semantic
information that encodes the content of images. During training, text
embeddings will serve as extra supervising signals and be aligned with image
representations learned by vision models. The alignment process helps vision
models learn better and achieve higher accuracy with the assistance of
pre-trained LLMs. We conduct extensive experiments to verify that the proposed
algorithm consistently improves the performance for various vision models with
heterogeneous architectures.
- Abstract(参考訳): 事前訓練済みの大規模モデル(GPT-4など)の最近の増加は、ディープラーニングコミュニティ全体に波及している。
このような強力な大規模言語モデル(LLM)は、先進的な生成能力とマルチモーダル理解能力を示し、様々なベンチマークで新しい最先端のパフォーマンスを迅速に達成する。
トレーニング済みのllmは通常、コンテキスト推論、記事分析、画像コンテンツ理解など、さまざまなタスクを実行できるユニバーサルaiモデルとしての役割を担う。
しかし、そのような大規模モデルを実装するためのメモリと計算コストが極めて高いことを考慮すると、従来のモデル(cnnやvitなど)は多くの視覚知覚タスクにおいて依然として不可欠である。
本稿では,大規模な事前学習モデルを活用することで,知覚タスク(画像分類など)における通常の視覚モデルの表現能力を高めることを提案する。
本稿では,cnn や vit のようなモデルが拡張表現を学習し,優れた性能を実現するために,事前学習モデルから抽出した知識を活用する新しい学習パラダイムを提案する。
まず,マルチモーダル LLM に対して,すべてのトレーニング画像に対して記述テキストを生成することによって,高品質な記述セットをキュレートする。
さらに,これらの詳細な記述を予め学習したエンコーダに入力し,画像の内容をエンコードする豊かな意味情報を含むテキスト埋め込みを抽出する。
トレーニング中、テキスト埋め込みは余分な監視信号となり、視覚モデルによって学習された画像表現と整合する。
アライメントプロセスは、事前訓練されたLLMの助けを借りて、ビジョンモデルの改善と精度の向上を支援する。
提案手法が異種アーキテクチャを用いた様々なビジョンモデルの性能を一貫して向上させることを確認した。
関連論文リスト
- Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚的単語の概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Aligned with LLM: a new multi-modal training paradigm for encoding fMRI
activity in visual cortex [4.57590454144072]
近年,事前訓練された大規模言語モデル(LLM)の人気が高まっている。
本稿では,視覚野のfMRI活性を符号化し,LLMと整合した新しいマルチモーダルトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2024-01-08T12:30:23Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - ViLaM: A Vision-Language Model with Enhanced Visual Grounding and
Generalization Capability [42.75233695675096]
ViLaMは、大きな言語モデルに述語された命令チューニングを統合する統合されたビジョンランゲージトランスフォーマーモデルである。
我々は、凍結した事前学習エンコーダを使用して、画像とテキストの特徴をエンコードし、調整する。
医療分野におけるViLaMの今後の応用の可能性を示すものとして,このモデルの目覚ましいゼロショット学習能力を見てきた。
論文 参考訳(メタデータ) (2023-11-21T03:40:09Z) - Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey [69.03538086844516]
本稿では, 自然言語処理, コンピュータビジョン, 音声処理における従来のディープラーニング, 事前学習の成果を概観することにより, マルチモーダル事前学習の背景を紹介する。
次に,マルチモーダル事前学習モデル(MM-PTM)のタスク定義,課題,メリットを紹介し,データ,目的,ネットワークアーキテクチャ,知識強化事前学習に着目して,MM-PTMについて議論する。
論文 参考訳(メタデータ) (2023-02-20T15:34:03Z) - iBoot: Image-bootstrapped Self-Supervised Video Representation Learning [45.845595749486215]
ビデオデータセットは通常、画像データセットほど大きくない。
本稿では,映像表現学習フレームワークにおいて,自己や言語を事前訓練した強力な画像ベースモデルを提案する。
提案アルゴリズムはより少ないエポックと少ないバッチでより効率的に学習できることが示されている。
論文 参考訳(メタデータ) (2022-06-16T17:42:48Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。