論文の概要: GPT4Image: Large Pre-trained Models Help Vision Models Learn Better on Perception Task
- arxiv url: http://arxiv.org/abs/2306.00693v3
- Date: Thu, 27 Feb 2025 12:49:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:53:20.463758
- Title: GPT4Image: Large Pre-trained Models Help Vision Models Learn Better on Perception Task
- Title(参考訳): GPT4Image: 視覚モデルが知覚タスクをより良く学習するのに役立つ大規模な事前訓練型モデル
- Authors: Ning Ding, Yehui Tang, Zhongqian Fu, Chao Xu, Kai Han, Yunhe Wang,
- Abstract要約: 我々はGPT4Imageと呼ばれる新しい学習フレームワークを提案し、CNNやViTがより良い表現を学ぶのに役立つ大規模な事前学習モデルの知識を抽出する。
本研究では,様々な視覚認知タスクにおける提案アルゴリズムの有効性を検証するために,広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 47.1857510710807
- License:
- Abstract: The upsurge in pre-trained large models started by ChatGPT has swept across the entire deep learning community. Such powerful models demonstrate advanced generative ability and multimodal understanding capability, which quickly set new state of the arts on a variety of benchmarks. The pre-trained LLM usually plays the role as a universal AI model that can conduct various tasks like article analysis and image comprehension. However, due to the prohibitively high memory and computational cost of implementing such a large model, the conventional models (such as CNN and ViT) are still essential for many visual perception tasks. In this paper, we propose to enhance the representation ability of ordinary vision models on perception tasks (e.g. image classification) by taking advantage of the off-the-shelf large pre-trained models. We present a new learning framework, dubbed GPT4Image, where the knowledge of the large pre-trained models are extracted to help CNNs and ViTs learn better representations and achieve higher performance. Firstly, we curate a high quality description set by prompting a multimodal LLM to generate descriptions for training images. Then, these detailed descriptions are fed into a pre-trained encoder to extract text embeddings that encodes the rich semantics of images. During training, text embeddings will serve as extra supervising signal and be aligned with image representations learned by vision models. The alignment process helps vision models achieve better performance with the aid of pre-trained LLMs. We conduct extensive experiments to verify the effectiveness of the proposed algorithm on various visual perception tasks for heterogeneous model architectures.
- Abstract(参考訳): ChatGPTが始めた事前訓練済みの大規模モデルの急増は、ディープラーニングコミュニティ全体に波及した。
このような強力なモデルは、先進的な生成能力とマルチモーダル理解能力を示し、様々なベンチマークで新しい最先端を素早く設定する。
事前訓練されたLLMは通常、記事分析や画像理解といったさまざまなタスクを実行できるユニバーサルAIモデルとしての役割を担います。
しかし、そのような大きなモデルを実装する上で、メモリが著しく高く、計算コストがかかるため、従来のモデル(CNNやViTなど)は、多くの視覚的タスクにおいて依然として不可欠である。
本稿では,市販の大規模事前学習モデルを利用して,通常の視覚モデルが知覚タスク(例えば画像分類)における表現能力を向上させることを提案する。
我々はGPT4Imageと呼ばれる新しい学習フレームワークを提案し、CNNやViTがより良い表現を学習し、より高いパフォーマンスを達成するために、大規模な事前学習モデルの知識を抽出する。
まず、マルチモーダルLCMにトレーニング画像の記述を生成することによって、高品質な記述セットをキュレートする。
次に、これらの詳細な記述を事前訓練されたエンコーダに入力し、画像のリッチなセマンティクスをエンコードするテキスト埋め込みを抽出する。
トレーニング中、テキストの埋め込みは、余分な監視信号として機能し、視覚モデルによって学習された画像表現と整合する。
アライメントプロセスは、事前訓練されたLLMの助けを借りて、視覚モデルの性能向上を支援する。
異種モデルアーキテクチャのための様々な視覚知覚タスクにおいて,提案アルゴリズムの有効性を検証するための広範囲な実験を行った。
関連論文リスト
- MUSE-VL: Modeling Unified VLM through Semantic Discrete Encoding [6.538592344967826]
マルチモーダル理解と生成のための離散言語を通して、統一視覚言語モデルセマンティックであるMUSE-VLを紹介する。
提案手法は,様々な視覚言語ベンチマークにおいて,従来の最先端モデルを大幅に上回り,専用の理解モデルよりも優れた性能を実現している。
論文 参考訳(メタデータ) (2024-11-26T03:33:52Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。
我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文 参考訳(メタデータ) (2023-12-01T18:59:57Z) - iBoot: Image-bootstrapped Self-Supervised Video Representation Learning [45.845595749486215]
ビデオデータセットは通常、画像データセットほど大きくない。
本稿では,映像表現学習フレームワークにおいて,自己や言語を事前訓練した強力な画像ベースモデルを提案する。
提案アルゴリズムはより少ないエポックと少ないバッチでより効率的に学習できることが示されている。
論文 参考訳(メタデータ) (2022-06-16T17:42:48Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。