論文の概要: GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks?
- arxiv url: http://arxiv.org/abs/2306.00693v2
- Date: Wed, 7 Jun 2023 13:59:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 17:56:14.259746
- Title: GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks?
- Title(参考訳): GPT4画像:大きな事前訓練されたモデルは知覚タスクの視覚モデルに役立つか?
- Authors: Ning Ding, Yehui Tang, Zhongqian Fu, Chao Xu, Kai Han, Yunhe Wang
- Abstract要約: 本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
- 参考スコア(独自算出の注目度): 51.22096780511165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent upsurge in pre-trained large models (e.g. GPT-4) has swept across
the entire deep learning community. Such powerful large language models (LLMs)
demonstrate advanced generative ability and multimodal understanding
capability, which quickly achieve new state-of-the-art performances on a
variety of benchmarks. The pre-trained LLM usually plays the role as a
universal AI model that can conduct various tasks, including context reasoning,
article analysis and image content comprehension. However, considering the
prohibitively high memory and computational cost for implementing such a large
model, the conventional models (such as CNN and ViT), are still essential for
many visual perception tasks. In this paper, we propose to enhance the
representation ability of ordinary vision models for perception tasks (e.g.
image classification) by taking advantage of large pre-trained models. We
present a new learning paradigm in which the knowledge extracted from large
pre-trained models are utilized to help models like CNN and ViT learn enhanced
representations and achieve better performance. Firstly, we curate a high
quality description set by prompting a multimodal LLM to generate descriptive
text for all training images. Furthermore, we feed these detailed descriptions
into a pre-trained encoder to extract text embeddings with rich semantic
information that encodes the content of images. During training, text
embeddings will serve as extra supervising signals and be aligned with image
representations learned by vision models. The alignment process helps vision
models learn better and achieve higher accuracy with the assistance of
pre-trained LLMs. We conduct extensive experiments to verify that the proposed
algorithm consistently improves the performance for various vision models with
heterogeneous architectures.
- Abstract(参考訳): 事前訓練済みの大規模モデル(GPT-4など)の最近の増加は、ディープラーニングコミュニティ全体に波及している。
このような強力な大規模言語モデル(LLM)は、先進的な生成能力とマルチモーダル理解能力を示し、様々なベンチマークで新しい最先端のパフォーマンスを迅速に達成する。
トレーニング済みのllmは通常、コンテキスト推論、記事分析、画像コンテンツ理解など、さまざまなタスクを実行できるユニバーサルaiモデルとしての役割を担う。
しかし、そのような大規模モデルを実装するためのメモリと計算コストが極めて高いことを考慮すると、従来のモデル(cnnやvitなど)は多くの視覚知覚タスクにおいて依然として不可欠である。
本稿では,大規模な事前学習モデルを活用することで,知覚タスク(画像分類など)における通常の視覚モデルの表現能力を高めることを提案する。
本稿では,cnn や vit のようなモデルが拡張表現を学習し,優れた性能を実現するために,事前学習モデルから抽出した知識を活用する新しい学習パラダイムを提案する。
まず,マルチモーダル LLM に対して,すべてのトレーニング画像に対して記述テキストを生成することによって,高品質な記述セットをキュレートする。
さらに,これらの詳細な記述を予め学習したエンコーダに入力し,画像の内容をエンコードする豊かな意味情報を含むテキスト埋め込みを抽出する。
トレーニング中、テキスト埋め込みは余分な監視信号となり、視覚モデルによって学習された画像表現と整合する。
アライメントプロセスは、事前訓練されたLLMの助けを借りて、ビジョンモデルの改善と精度の向上を支援する。
提案手法が異種アーキテクチャを用いた様々なビジョンモデルの性能を一貫して向上させることを確認した。
関連論文リスト
- Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - HRVDA: High-Resolution Visual Document Assistant [32.51417315241559]
本稿では,MLLMと視覚文書理解のギャップを埋めるための高解像度ビジュアルドキュメントアシスタント(HRVDA)を提案する。
HRVDAはコンテンツフィルタリング機構と命令フィルタリングモジュールを使用して、コンテンツに依存しないビジュアルトークンと命令に依存しないビジュアルトークンをフィルタリングする。
本モデルは,複数の文書理解データセットにまたがる最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-10T11:10:50Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - iBoot: Image-bootstrapped Self-Supervised Video Representation Learning [45.845595749486215]
ビデオデータセットは通常、画像データセットほど大きくない。
本稿では,映像表現学習フレームワークにおいて,自己や言語を事前訓練した強力な画像ベースモデルを提案する。
提案アルゴリズムはより少ないエポックと少ないバッチでより効率的に学習できることが示されている。
論文 参考訳(メタデータ) (2022-06-16T17:42:48Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。