論文の概要: ArtGPT-4: Towards Artistic-understanding Large Vision-Language Models
with Enhanced Adapter
- arxiv url: http://arxiv.org/abs/2305.07490v5
- Date: Tue, 2 Jan 2024 15:29:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 20:16:08.660819
- Title: ArtGPT-4: Towards Artistic-understanding Large Vision-Language Models
with Enhanced Adapter
- Title(参考訳): artgpt-4: 拡張アダプタを用いた視覚言語モデルの構築
- Authors: Zhengqing Yuan, Xinyi Wang, Kun Wang, Lichao Sun
- Abstract要約: この研究はArtGPT-4を導入し、芸術的理解における現代モデルの不備に対処するために作られた、大きな視覚言語モデルのパイオニアとなった。
ArtGPT-4は、わずか2時間でTesla A100デバイスを使用して画像テキストペアのトレーニングを受けた。
その後の評価では、ArtGPT-4はArtEmisとArtEmis-v2.0データセットの最先端のパフォーマンスを達成しただけでなく、この研究で導入された確立されたベンチマークを上回った。
- 参考スコア(独自算出の注目度): 47.0549650864359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, advancements in large language models have been remarkable,
with models such as ChatGPT demonstrating exceptional proficiency in diverse
linguistic tasks. The pre-training of large models with billions of parameters,
poses a formidable challenge, primarily due to the scarcity of datasets of a
commensurate scale for effective training. Nevertheless, innovative strategies
have emerged, including methods to fine-tune these pre-trained models using
fewer parameters set, as evidenced by models like MiniGPT-4 and LLaVA. Despite
their potential in various domains, these models remain limited in their
understanding of artistic imagery. They have yet to fully grasp the intricate
nuances of art images or to provide an objective articulation of the emotions
they evoke, in a manner akin to human perception. This work introduces
ArtGPT-4, a pioneering large vision-language model tailored to address the
deficiencies of contemporary models in artistic comprehension. ArtGPT-4
underwent training on image-text pairs utilizing a Tesla A100 device in a mere
2 hours, with a dataset comprising approximately 0.52M entries. Impressively,
the model can render images with an artistic-understanding and convey the
emotions they inspire, mirroring human interpretation. Additionally, this work
presents a unique dataset designed to evaluate the efficacy of vision-language
models. In subsequent evaluations, ArtGPT-4 not only achieved state-of-the-art
performance on the ArtEmis and ArtEmis-v2.0 datasets but also exceeded the
established benchmarks introduced in This study, lagging behind professional
artists' descriptions by a negligible 0.15 points on a 6-point scale. The code
and the pre-trained model are accessible in
https://huggingface.co/Tyrannosaurus/ArtGPT-4.
- Abstract(参考訳): 近年、大規模な言語モデルの進歩は目覚ましいもので、chatgptのようなモデルは多様な言語タスクにおいて非常に熟練している。
数十億のパラメータを持つ大規模なモデルの事前トレーニングは、主に効果的なトレーニングのための包括的スケールのデータセットが不足しているため、非常に難しい課題となる。
しかし、MiniGPT-4やLLaVAのようなモデルによって証明されたように、より少ないパラメータセットを用いて事前訓練されたモデルを微調整する方法を含む革新的な戦略が出現した。
様々な領域においてその可能性にもかかわらず、これらのモデルは芸術的イメージの理解に限られている。
彼らはまだ、アートイメージの複雑なニュアンスを完全に把握していないし、人間の知覚に類似した方法で、彼らが誘発した感情を客観的に表現している。
artgpt-4は、現代モデルの芸術的理解の欠如に対処するために考案されたビジョン言語モデルである。
ArtGPT-4は、わずか2時間でTesla A100デバイスを使用して画像テキストペアのトレーニングを受けた。
印象的なことに、モデルは芸術的理解で画像を描画し、それらが刺激する感情を伝え、人間の解釈を反映することができる。
さらに,視覚言語モデルの有効性を評価するために設計されたユニークなデータセットを提案する。
その後の評価では、artgpt-4はartemisおよびartemis-v2.0データセットで最先端のパフォーマンスを達成しただけでなく、本研究で導入された既存のベンチマークを上回り、プロのアーティストの記述を6ポイントスケールで0.15ポイント遅れている。
コードと事前訓練されたモデルはhttps://huggingface.co/Tyrannosaurus/ArtGPT-4でアクセス可能である。
関連論文リスト
- Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Scalable Pre-training of Large Autoregressive Image Models [65.824197847617]
本稿では,自己回帰目標を事前学習した視覚モデル集であるAIMを紹介する。
そこで本研究では,(1)モデルキャパシティとデータ量の両方で視覚的特徴がスケールし,(2)目標関数の値は下流タスクにおけるモデルの性能と相関することを示す。
論文 参考訳(メタデータ) (2024-01-16T18:03:37Z) - Gemini vs GPT-4V: A Preliminary Comparison and Combination of
Vision-Language Models Through Qualitative Cases [98.35348038111508]
本稿では,Google の Gemini と OpenAI の GPT-4V(ision) の2つのパイオニアモデルについて,詳細な比較研究を行った。
分析の核となるのは、各モデルの視覚的理解能力である。
両モデルのユニークな強みとニッチを照らし出した。
論文 参考訳(メタデータ) (2023-12-22T18:59:58Z) - Diffusion Based Augmentation for Captioning and Retrieval in Cultural
Heritage [28.301944852273746]
本稿では,文化遺産領域における限られた注釈付きデータとドメインシフトの課題に対処する新しいアプローチを提案する。
生成的視覚言語モデルを活用することで、キャプションに条件付けされた多種多様なアート作品を生成することにより、アートデータセットを増強する。
論文 参考訳(メタデータ) (2023-08-14T13:59:04Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large
Language Models [41.84885546518666]
GPT-4は、手書きテキストから直接Webサイトを生成するなど、驚くべきマルチモーダル能力を示している。
凍結型ビジュアルエンコーダと凍結型大規模言語モデルとを協調するMiniGPT-4を提案する。
また,MiniGPT-4の新たな特徴として,与えられた画像にインスパイアされた物語や詩を書くことが挙げられる。
論文 参考訳(メタデータ) (2023-04-20T18:25:35Z) - LiT Tuned Models for Efficient Species Detection [22.3395465641384]
本稿では,任意の微細な画像分類データセットを分散視覚言語事前学習に適用するための簡単な手法を提案する。
iNaturalist-2021データセットは、約270万のマクロ微生物の画像で構成されており、1万のクラスにまたがっている。
我々のモデルは(ロック画像テキストチューニングと呼ばれる新しい手法を用いて訓練)、事前訓練された凍結された視覚表現を用いて、言語アライメントだけで強力な移動学習性能が得られることを証明している。
論文 参考訳(メタデータ) (2023-02-12T20:36:55Z) - Open-vocabulary Semantic Segmentation with Frozen Vision-Language Models [39.479912987123214]
自己指導型学習は、幅広い視覚的・言語的理解タスクを解く顕著な能力を示した。
Fusionerは軽量なトランスフォーマーベースの融合モジュールで、凍結した視覚表現と言語概念をペアリングする。
提案手法は,任意の視覚モデルと言語モデル,あるいはユニモーダルデータのコーパス上で事前学習したモデルに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-10-27T02:57:26Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。