Fugu-MT 論文翻訳(概要): GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception Tasks?

論文の概要: GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception Tasks?

arxiv url: http://arxiv.org/abs/2306.00693v2
Date: Wed, 7 Jun 2023 13:59:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-08 17:56:14.259746
Title: GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception Tasks?
Title（参考訳）: GPT4画像:大きな事前訓練されたモデルは知覚タスクの視覚モデルに役立つか?
Authors: Ning Ding, Yehui Tang, Zhongqian Fu, Chao Xu, Kai Han, Yunhe Wang
Abstract要約: 本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
参考スコア（独自算出の注目度）: 51.22096780511165
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recent upsurge in pre-trained large models (e.g. GPT-4) has swept across the entire deep learning community. Such powerful large language models (LLMs) demonstrate advanced generative ability and multimodal understanding capability, which quickly achieve new state-of-the-art performances on a variety of benchmarks. The pre-trained LLM usually plays the role as a universal AI model that can conduct various tasks, including context reasoning, article analysis and image content comprehension. However, considering the prohibitively high memory and computational cost for implementing such a large model, the conventional models (such as CNN and ViT), are still essential for many visual perception tasks. In this paper, we propose to enhance the representation ability of ordinary vision models for perception tasks (e.g. image classification) by taking advantage of large pre-trained models. We present a new learning paradigm in which the knowledge extracted from large pre-trained models are utilized to help models like CNN and ViT learn enhanced representations and achieve better performance. Firstly, we curate a high quality description set by prompting a multimodal LLM to generate descriptive text for all training images. Furthermore, we feed these detailed descriptions into a pre-trained encoder to extract text embeddings with rich semantic information that encodes the content of images. During training, text embeddings will serve as extra supervising signals and be aligned with image representations learned by vision models. The alignment process helps vision models learn better and achieve higher accuracy with the assistance of pre-trained LLMs. We conduct extensive experiments to verify that the proposed algorithm consistently improves the performance for various vision models with heterogeneous architectures.
Abstract（参考訳）: 事前訓練済みの大規模モデル(GPT-4など)の最近の増加は、ディープラーニングコミュニティ全体に波及している。このような強力な大規模言語モデル(LLM)は、先進的な生成能力とマルチモーダル理解能力を示し、様々なベンチマークで新しい最先端のパフォーマンスを迅速に達成する。トレーニング済みのllmは通常、コンテキスト推論、記事分析、画像コンテンツ理解など、さまざまなタスクを実行できるユニバーサルaiモデルとしての役割を担う。しかし、そのような大規模モデルを実装するためのメモリと計算コストが極めて高いことを考慮すると、従来のモデル(cnnやvitなど)は多くの視覚知覚タスクにおいて依然として不可欠である。本稿では,大規模な事前学習モデルを活用することで,知覚タスク(画像分類など)における通常の視覚モデルの表現能力を高めることを提案する。本稿では,cnn や vit のようなモデルが拡張表現を学習し,優れた性能を実現するために,事前学習モデルから抽出した知識を活用する新しい学習パラダイムを提案する。まず,マルチモーダル LLM に対して,すべてのトレーニング画像に対して記述テキストを生成することによって,高品質な記述セットをキュレートする。さらに,これらの詳細な記述を予め学習したエンコーダに入力し,画像の内容をエンコードする豊かな意味情報を含むテキスト埋め込みを抽出する。トレーニング中、テキスト埋め込みは余分な監視信号となり、視覚モデルによって学習された画像表現と整合する。アライメントプロセスは、事前訓練されたLLMの助けを借りて、ビジョンモデルの改善と精度の向上を支援する。提案手法が異種アーキテクチャを用いた様々なビジョンモデルの性能を一貫して向上させることを確認した。

関連論文リスト

From Prototypes to General Distributions: An Efficient Curriculum for Masked Image Modeling [11.634154932876719]
Masked Image Modelingは視覚表現学習のための強力な自己教師型学習パラダイムとして登場した。本稿では,原典例からデータセットのより複雑なバリエーションまで,学習プロセスの進行を構造化する,プロトタイプ駆動型カリキュラム学習フレームワークを提案する。本研究は, 自己指導型視覚学習において, トレーニング事例の順序を慎重に制御することが重要な役割を担っていることを示唆している。
論文参考訳（メタデータ） (2024-11-16T03:21:06Z)
Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文参考訳（メタデータ） (2024-05-30T05:53:49Z)
HRVDA: High-Resolution Visual Document Assistant [32.51417315241559]
本稿では,MLLMと視覚文書理解のギャップを埋めるための高解像度ビジュアルドキュメントアシスタント(HRVDA)を提案する。 HRVDAはコンテンツフィルタリング機構と命令フィルタリングモジュールを使用して、コンテンツに依存しないビジュアルトークンと命令に依存しないビジュアルトークンをフィルタリングする。本モデルは,複数の文書理解データセットにまたがる最先端性能を実現する。
論文参考訳（メタデータ） (2024-04-10T11:10:50Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
Sequential Modeling Enables Scalable Learning for Large Vision Models [120.91839619284431]
本稿では,言語データを用いずにLVM(Large Vision Model)を学習できる新しい逐次モデリング手法を提案する。我々は、生画像やビデオや注釈付きデータソースを表現できる共通フォーマット「視覚文」を定義した。
論文参考訳（メタデータ） (2023-12-01T18:59:57Z)
iBoot: Image-bootstrapped Self-Supervised Video Representation Learning [45.845595749486215]
ビデオデータセットは通常、画像データセットほど大きくない。本稿では,映像表現学習フレームワークにおいて,自己や言語を事前訓練した強力な画像ベースモデルを提案する。提案アルゴリズムはより少ないエポックと少ないバッチでより効率的に学習できることが示されている。
論文参考訳（メタデータ） (2022-06-16T17:42:48Z)
Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文参考訳（メタデータ） (2022-03-25T19:44:09Z)
Pre-Trained Image Processing Transformer [95.93031793337613]
我々は、新しい事前学習モデル、すなわち、画像処理変換器(IPT)を開発する。本稿では、よく知られたImageNetベンチマークを用いて、大量の画像ペアを生成する。 IPTモデルは、これらの画像をマルチヘッドとマルチテールでトレーニングする。
論文参考訳（メタデータ） (2020-12-01T09:42:46Z)
Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。 VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文参考訳（メタデータ） (2020-05-15T01:06:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。