論文の概要: ArtGPT-4: Towards Artistic-understanding Large Vision-Language Models with Enhanced Adapter
- arxiv url: http://arxiv.org/abs/2305.07490v6
- Date: Thu, 4 Apr 2024 18:55:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 20:59:44.873901
- Title: ArtGPT-4: Towards Artistic-understanding Large Vision-Language Models with Enhanced Adapter
- Title(参考訳): ArtGPT-4: アダプタを改良した芸術的理解型大規模視覚言語モデルを目指して
- Authors: Zhengqing Yuan, Yunhong He, Kun Wang, Yanfang Ye, Lichao Sun,
- Abstract要約: ArtGPT-4は、芸術的理解における既存のモデルの限界に対処するために設計された大きな視覚言語モデルである。
芸術的理解で画像を描画し、それらが刺激する感情を伝え、人間の解釈を反映する。
- 参考スコア(独自算出の注目度): 19.830089364830066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of large language models (LLMs) has inspired an emerging research field of multimodal learning. However, a grand challenge of exploiting LLMs for multimodal learning is the size of pre-trained LLMs which are always with billions of parameters. To tackle this challenge, models such as MiniGPT-4 and LLaVA have been developed to fine-tune the pre-trained models using fewer parameters. Despite their promising performance, these models remain limited in their understanding of artistic imagery. To facilitate better artistic-understanding, in this paper, we propose ArtGPT-4, a pioneering large vision-language model tailored to address the limitations of existing models in artistic comprehension. The key innovation of ArtGPT-4 lies in its craft for the sophisticated challenge of artistic image comprehension, setting it apart from other models that overlook fine details for broader themes. Specifically, it works by integrating some specialized adapter layers into the LLM, enabling the model to more efficiently and effectively parse and interpret complex visual tokens, instead of fine-tuning the whole LLM as in the existing method. ArtGPT-4 has demonstrated its outstanding performance on the efficiency: utilizing a Tesla A100 device, its training can be completed in mere 2 hours with an image-text pair dataset comprising approximately 0.52M entries. Additionally, ArtGPT-4 has also achieved state-of-the-art performance on the ArtEmis and ArtEmis-v2.0 datasets as well as the benchmarks established in this work, lagging behind professional artists' descriptions by a negligible 0.15 points on a 6-point scale. The outstanding performance of ArtGPT-4 shows that it can render images with an artistic-understanding and convey the emotions they inspire, mirroring human interpretation. The code and the pre-trained model are accessible in \url{https://github.com/DLYuanGod/ArtGPT-4}.
- Abstract(参考訳): 大規模言語モデル(LLM)の成功は、マルチモーダル学習の新たな研究分野にインスピレーションを与えている。
しかし、マルチモーダル学習にLLMを利用するという大きな課題は、常に数十億のパラメータを持つ事前学習LLMのサイズである。
この課題に対処するために、MiniGPT-4やLLaVAのようなモデルが開発され、より少ないパラメータで事前訓練されたモデルを微調整している。
有望なパフォーマンスにもかかわらず、これらのモデルは芸術的イメージの理解に限られている。
本稿では,芸術的理解における既存モデルの限界に対処するための視覚言語モデルであるArtGPT-4を提案する。
ArtGPT-4の鍵となるイノベーションは、芸術的イメージ理解の高度な挑戦のための技術であり、より広いテーマの細部を見渡せる他のモデルとは切り離されている。
具体的には、いくつかの特別なアダプタ層をLLMに統合することで、モデルが既存の方法のようにLLM全体を微調整するのではなく、より効率的に、効果的に複雑なビジュアルトークンを解析し、解釈することができる。
ArtGPT-4は、Tesla A100デバイスを使用することで、約0.52万エントリからなる画像テキストペアデータセットを使用して、わずか2時間でトレーニングを完了することができる。
さらにArtGPT-4はArtEmisとArtEmis-v2.0のデータセットとこの研究で確立されたベンチマークで最先端のパフォーマンスを達成しており、6ポイントのスケールで0.15ポイントのプロのアーティストの説明に遅れを取っている。
ArtGPT-4の優れたパフォーマンスは、芸術的理解で画像を描画し、それらが刺激する感情を伝達し、人間の解釈を反映できることを示している。
コードと事前訓練されたモデルは \url{https://github.com/DLYuanGod/ArtGPT-4} でアクセス可能である。
関連論文リスト
- Visual Perception in Text Strings [24.60102607739684]
本研究では,ASCIIアートを代表的アーティファクトとして選択し,各概念を表現するための線と明るさを文字で表現する。
評価データセットを構築することにより,このタスクにおけるモデル性能をベンチマークし,モデルの視覚的知覚能力を引き出すためのトレーニングセットを収集する。
その結果、人間は100%近い精度を達成できるが、最先端のLSMとMLLMははるかに遅れていることがわかった。
論文 参考訳(メタデータ) (2024-10-02T16:46:01Z) - GalleryGPT: Analyzing Paintings with Large Multimodal Models [64.98398357569765]
美術品の分析は、個人の審美性を豊かにし、批判的思考能力を促進することができる芸術鑑賞のための重要かつ基本的な技術である。
アートワークを自動解析する以前の作業は、主に分類、検索、その他の単純なタスクに焦点を当てており、AIの目標とは程遠い。
LLaVAアーキテクチャに基づいて微調整されたGalleryGPTと呼ばれる,絵画解析のための優れた大規模マルチモーダルモデルを提案する。
論文 参考訳(メタデータ) (2024-08-01T11:52:56Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models [51.98253148764755]
我々は、LVLMの科学的理解を高めるために、ArXivCapとArXivQAからなるMultimodal ArXivを紹介する。
ArXivCapは、6.4Mの画像と3.9Mキャプションからなるフィギュアキャプチャーデータセットであり、様々な科学領域にまたがる572K ArXivの論文から得られたものである。
ArXivQAは、科学的な数値に基づいてGPT-4Vを誘導することによって生成される質問応答データセットである。
論文 参考訳(メタデータ) (2024-03-01T02:21:30Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Diffusion Based Augmentation for Captioning and Retrieval in Cultural
Heritage [28.301944852273746]
本稿では,文化遺産領域における限られた注釈付きデータとドメインシフトの課題に対処する新しいアプローチを提案する。
生成的視覚言語モデルを活用することで、キャプションに条件付けされた多種多様なアート作品を生成することにより、アートデータセットを増強する。
論文 参考訳(メタデータ) (2023-08-14T13:59:04Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large
Language Models [41.84885546518666]
GPT-4は、手書きテキストから直接Webサイトを生成するなど、驚くべきマルチモーダル能力を示している。
凍結型ビジュアルエンコーダと凍結型大規模言語モデルとを協調するMiniGPT-4を提案する。
また,MiniGPT-4の新たな特徴として,与えられた画像にインスパイアされた物語や詩を書くことが挙げられる。
論文 参考訳(メタデータ) (2023-04-20T18:25:35Z) - Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。
このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。
科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文 参考訳(メタデータ) (2023-04-17T17:59:25Z) - Towards mapping the contemporary art world with ArtLM: an art-specific
NLP model [0.0]
本報告では, 現代美術家間の相互関係を明らかにするために, 総合自然言語処理フレームワーク(ArtLM)を提案する。
広範囲な実験により, 85.6%の精度と84.0%のF1スコアが得られた。
また,ArtLMの出力から構築したアーティストネットワークの可視化と定性解析も提供する。
論文 参考訳(メタデータ) (2022-12-14T09:26:07Z) - Art Style Classification with Self-Trained Ensemble of AutoEncoding
Transformations [5.835728107167379]
絵画の芸術的スタイルは豊かな記述物であり、アーティストが創造的なビジョンをどのように表現し表現するかについての視覚的知識と深い本質的な知識の両方を明らかにする。
本稿では,高度な自己指導型学習手法を用いて,クラス内およびクラス間変動の少ない複雑な芸術的スタイルを認識することの課題を解決する。
論文 参考訳(メタデータ) (2020-12-06T21:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。