論文の概要: ArtGPT-4: Towards Artistic-understanding Large Vision-Language Models
with Enhanced Adapter
- arxiv url: http://arxiv.org/abs/2305.07490v4
- Date: Tue, 19 Dec 2023 06:27:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 12:39:30.360069
- Title: ArtGPT-4: Towards Artistic-understanding Large Vision-Language Models
with Enhanced Adapter
- Title(参考訳): artgpt-4: 拡張アダプタを用いた視覚言語モデルの構築
- Authors: Zhengqing Yuan, Xinyi Wang, Kun Wang, Lichao Sun, Yanfang Ye
- Abstract要約: この研究はArtGPT-4を導入し、芸術的理解における現代モデルの不備に対処するために作られた、大きな視覚言語モデルのパイオニアとなった。
ArtGPT-4は、わずか2時間でTesla A100デバイスを使用して画像テキストペアのトレーニングを受けた。
その後の評価では、ArtGPT-4はArtEmisとArtEmis-v2.0データセットの最先端のパフォーマンスを達成しただけでなく、この研究で導入された確立されたベンチマークを上回った。
- 参考スコア(独自算出の注目度): 53.32036813422757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, advancements in large language models have been remarkable,
with models such as ChatGPT demonstrating exceptional proficiency in diverse
linguistic tasks. The pre-training of large models with billions of parameters,
poses a formidable challenge, primarily due to the scarcity of datasets of a
commensurate scale for effective training. Nevertheless, innovative strategies
have emerged, including methods to fine-tune these pre-trained models using
fewer parameters set, as evidenced by models like MiniGPT-4 and LLaVA. Despite
their potential in various domains, these models remain limited in their
understanding of artistic imagery. They have yet to fully grasp the intricate
nuances of art images or to provide an objective articulation of the emotions
they evoke, in a manner akin to human perception. This work introduces
ArtGPT-4, a pioneering large vision-language model tailored to address the
deficiencies of contemporary models in artistic comprehension. ArtGPT-4
underwent training on image-text pairs utilizing a Tesla A100 device in a mere
2 hours, with a dataset comprising approximately 0.52M entries. Impressively,
the model can render images with an artistic-understanding and convey the
emotions they inspire, mirroring human interpretation. Additionally, this work
presents a unique dataset designed to evaluate the efficacy of vision-language
models. In subsequent evaluations, ArtGPT-4 not only achieved state-of-the-art
performance on the ArtEmis and ArtEmis-v2.0 datasets but also exceeded the
established benchmarks introduced in This study, lagging behind professional
artists' descriptions by a negligible 0.15 points on a 6-point scale. The code
and the pre-trained model are accessible in
https://huggingface.co/Tyrannosaurus/ArtGPT-4.
- Abstract(参考訳): 近年、大規模な言語モデルの進歩は目覚ましいもので、chatgptのようなモデルは多様な言語タスクにおいて非常に熟練している。
数十億のパラメータを持つ大規模なモデルの事前トレーニングは、主に効果的なトレーニングのための包括的スケールのデータセットが不足しているため、非常に難しい課題となる。
しかし、MiniGPT-4やLLaVAのようなモデルによって証明されたように、より少ないパラメータセットを用いて事前訓練されたモデルを微調整する方法を含む革新的な戦略が出現した。
様々な領域においてその可能性にもかかわらず、これらのモデルは芸術的イメージの理解に限られている。
彼らはまだ、アートイメージの複雑なニュアンスを完全に把握していないし、人間の知覚に類似した方法で、彼らが誘発した感情を客観的に表現している。
artgpt-4は、現代モデルの芸術的理解の欠如に対処するために考案されたビジョン言語モデルである。
ArtGPT-4は、わずか2時間でTesla A100デバイスを使用して画像テキストペアのトレーニングを受けた。
印象的なことに、モデルは芸術的理解で画像を描画し、それらが刺激する感情を伝え、人間の解釈を反映することができる。
さらに,視覚言語モデルの有効性を評価するために設計されたユニークなデータセットを提案する。
その後の評価では、artgpt-4はartemisおよびartemis-v2.0データセットで最先端のパフォーマンスを達成しただけでなく、本研究で導入された既存のベンチマークを上回り、プロのアーティストの記述を6ポイントスケールで0.15ポイント遅れている。
コードと事前訓練されたモデルはhttps://huggingface.co/Tyrannosaurus/ArtGPT-4でアクセス可能である。
関連論文リスト
- Visual Perception in Text Strings [24.60102607739684]
本研究では,ASCIIアートを代表的アーティファクトとして選択し,各概念を表現するための線と明るさを文字で表現する。
評価データセットを構築することにより,このタスクにおけるモデル性能をベンチマークし,モデルの視覚的知覚能力を引き出すためのトレーニングセットを収集する。
その結果、人間は100%近い精度を達成できるが、最先端のLSMとMLLMははるかに遅れていることがわかった。
論文 参考訳(メタデータ) (2024-10-02T16:46:01Z) - GalleryGPT: Analyzing Paintings with Large Multimodal Models [64.98398357569765]
美術品の分析は、個人の審美性を豊かにし、批判的思考能力を促進することができる芸術鑑賞のための重要かつ基本的な技術である。
アートワークを自動解析する以前の作業は、主に分類、検索、その他の単純なタスクに焦点を当てており、AIの目標とは程遠い。
LLaVAアーキテクチャに基づいて微調整されたGalleryGPTと呼ばれる,絵画解析のための優れた大規模マルチモーダルモデルを提案する。
論文 参考訳(メタデータ) (2024-08-01T11:52:56Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models [51.98253148764755]
我々は、LVLMの科学的理解を高めるために、ArXivCapとArXivQAからなるMultimodal ArXivを紹介する。
ArXivCapは、6.4Mの画像と3.9Mキャプションからなるフィギュアキャプチャーデータセットであり、様々な科学領域にまたがる572K ArXivの論文から得られたものである。
ArXivQAは、科学的な数値に基づいてGPT-4Vを誘導することによって生成される質問応答データセットである。
論文 参考訳(メタデータ) (2024-03-01T02:21:30Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Diffusion Based Augmentation for Captioning and Retrieval in Cultural
Heritage [28.301944852273746]
本稿では,文化遺産領域における限られた注釈付きデータとドメインシフトの課題に対処する新しいアプローチを提案する。
生成的視覚言語モデルを活用することで、キャプションに条件付けされた多種多様なアート作品を生成することにより、アートデータセットを増強する。
論文 参考訳(メタデータ) (2023-08-14T13:59:04Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large
Language Models [41.84885546518666]
GPT-4は、手書きテキストから直接Webサイトを生成するなど、驚くべきマルチモーダル能力を示している。
凍結型ビジュアルエンコーダと凍結型大規模言語モデルとを協調するMiniGPT-4を提案する。
また,MiniGPT-4の新たな特徴として,与えられた画像にインスパイアされた物語や詩を書くことが挙げられる。
論文 参考訳(メタデータ) (2023-04-20T18:25:35Z) - Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。
このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。
科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文 参考訳(メタデータ) (2023-04-17T17:59:25Z) - Towards mapping the contemporary art world with ArtLM: an art-specific
NLP model [0.0]
本報告では, 現代美術家間の相互関係を明らかにするために, 総合自然言語処理フレームワーク(ArtLM)を提案する。
広範囲な実験により, 85.6%の精度と84.0%のF1スコアが得られた。
また,ArtLMの出力から構築したアーティストネットワークの可視化と定性解析も提供する。
論文 参考訳(メタデータ) (2022-12-14T09:26:07Z) - Art Style Classification with Self-Trained Ensemble of AutoEncoding
Transformations [5.835728107167379]
絵画の芸術的スタイルは豊かな記述物であり、アーティストが創造的なビジョンをどのように表現し表現するかについての視覚的知識と深い本質的な知識の両方を明らかにする。
本稿では,高度な自己指導型学習手法を用いて,クラス内およびクラス間変動の少ない複雑な芸術的スタイルを認識することの課題を解決する。
論文 参考訳(メタデータ) (2020-12-06T21:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。