論文の概要: ArtGPT-4: Artistic Vision-Language Understanding with Adapter-enhanced
MiniGPT-4
- arxiv url: http://arxiv.org/abs/2305.07490v1
- Date: Fri, 12 May 2023 14:04:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 12:51:11.486875
- Title: ArtGPT-4: Artistic Vision-Language Understanding with Adapter-enhanced
MiniGPT-4
- Title(参考訳): artgpt-4:アダプタを付加したminigpt-4による視覚言語理解
- Authors: Zhengqing Yuan, Huiwen Xue, Xinyi Wang, Yongming Liu, Zhuanzhe Zhao,
Kun Wang
- Abstract要約: MiniGPT-4は、新しい事前学習モデルと革新的なトレーニング戦略を活用することで、GPT-4に匹敵する視覚言語理解を実現する。
ArtGPT-4は、わずか2時間でTesla A100デバイスを使用して、200GBのデータのみを使用して画像テキストペアで訓練された。
このモデルは、芸術的なフレアでイメージを描き、美的なHTML/CSSのWebページを含む視覚的なコードを生成することができる。
- 参考スコア(独自算出の注目度): 25.739617081433543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, large language models (LLMs) have made significant progress
in natural language processing (NLP), with models like ChatGPT and GPT-4
achieving impressive capabilities in various linguistic tasks. However,
training models on such a large scale is challenging, and finding datasets that
match the model's scale is often difficult. Fine-tuning and training models
with fewer parameters using novel methods have emerged as promising approaches
to overcome these challenges. One such model is MiniGPT-4, which achieves
comparable vision-language understanding to GPT-4 by leveraging novel
pre-training models and innovative training strategies. However, the model
still faces some challenges in image understanding, particularly in artistic
pictures. A novel multimodal model called ArtGPT-4 has been proposed to address
these limitations. ArtGPT-4 was trained on image-text pairs using a Tesla A100
device in just 2 hours, using only about 200 GB of data. The model can depict
images with an artistic flair and generate visual code, including aesthetically
pleasing HTML/CSS web pages. Furthermore, the article proposes novel benchmarks
for evaluating the performance of vision-language models. In the subsequent
evaluation methods, ArtGPT-4 scored more than 1 point higher than the current
\textbf{state-of-the-art} model and was only 0.25 points lower than artists on
a 6-point scale. Our code and pre-trained model are available at
\url{https://huggingface.co/Tyrannosaurus/ArtGPT-4}.
- Abstract(参考訳): 近年、大規模言語モデル (LLM) は自然言語処理 (NLP) において顕著な進歩を遂げており、ChatGPT や GPT-4 のようなモデルが様々な言語タスクにおいて顕著な能力を発揮している。
しかし、そのような大規模なモデルのトレーニングは困難であり、モデルのスケールにマッチするデータセットを見つけることはしばしば困難である。
これらの課題を克服するための有望なアプローチとして,新しい手法を用いたパラメータの少ない微調整とトレーニングモデルが登場している。
そのようなモデルの一つがMiniGPT-4であり、新しい事前学習モデルと革新的なトレーニング戦略を活用することで、GPT-4に匹敵する視覚言語理解を実現する。
しかし、このモデルはまだ画像理解、特に芸術的絵画におけるいくつかの課題に直面している。
ArtGPT-4と呼ばれる新しいマルチモーダルモデルが提案されている。
ArtGPT-4は、わずか2時間でTesla A100デバイスを使用して、200GBのデータのみを使用して画像テキストペアで訓練された。
このモデルは、芸術的なフレアで画像を描き、美的なHTML/CSSのWebページを含む視覚的なコードを生成することができる。
さらに,視覚言語モデルの性能評価のための新しいベンチマークを提案する。
続く評価手法では、artgpt-4は現在の \textbf{state-of-the-art}モデルよりも1ポイント以上高く、6ポイントスケールでアーティストよりもわずか0.25ポイント低い。
我々のコードと事前訓練されたモデルは、 \url{https://huggingface.co/Tyrannosaurus/ArtGPT-4}で利用可能です。
関連論文リスト
- Visual Perception in Text Strings [24.60102607739684]
本研究では,ASCIIアートを代表的アーティファクトとして選択し,各概念を表現するための線と明るさを文字で表現する。
評価データセットを構築することにより,このタスクにおけるモデル性能をベンチマークし,モデルの視覚的知覚能力を引き出すためのトレーニングセットを収集する。
その結果、人間は100%近い精度を達成できるが、最先端のLSMとMLLMははるかに遅れていることがわかった。
論文 参考訳(メタデータ) (2024-10-02T16:46:01Z) - GalleryGPT: Analyzing Paintings with Large Multimodal Models [64.98398357569765]
美術品の分析は、個人の審美性を豊かにし、批判的思考能力を促進することができる芸術鑑賞のための重要かつ基本的な技術である。
アートワークを自動解析する以前の作業は、主に分類、検索、その他の単純なタスクに焦点を当てており、AIの目標とは程遠い。
LLaVAアーキテクチャに基づいて微調整されたGalleryGPTと呼ばれる,絵画解析のための優れた大規模マルチモーダルモデルを提案する。
論文 参考訳(メタデータ) (2024-08-01T11:52:56Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models [51.98253148764755]
我々は、LVLMの科学的理解を高めるために、ArXivCapとArXivQAからなるMultimodal ArXivを紹介する。
ArXivCapは、6.4Mの画像と3.9Mキャプションからなるフィギュアキャプチャーデータセットであり、様々な科学領域にまたがる572K ArXivの論文から得られたものである。
ArXivQAは、科学的な数値に基づいてGPT-4Vを誘導することによって生成される質問応答データセットである。
論文 参考訳(メタデータ) (2024-03-01T02:21:30Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - Diffusion Based Augmentation for Captioning and Retrieval in Cultural
Heritage [28.301944852273746]
本稿では,文化遺産領域における限られた注釈付きデータとドメインシフトの課題に対処する新しいアプローチを提案する。
生成的視覚言語モデルを活用することで、キャプションに条件付けされた多種多様なアート作品を生成することにより、アートデータセットを増強する。
論文 参考訳(メタデータ) (2023-08-14T13:59:04Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large
Language Models [41.84885546518666]
GPT-4は、手書きテキストから直接Webサイトを生成するなど、驚くべきマルチモーダル能力を示している。
凍結型ビジュアルエンコーダと凍結型大規模言語モデルとを協調するMiniGPT-4を提案する。
また,MiniGPT-4の新たな特徴として,与えられた画像にインスパイアされた物語や詩を書くことが挙げられる。
論文 参考訳(メタデータ) (2023-04-20T18:25:35Z) - Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。
このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。
科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文 参考訳(メタデータ) (2023-04-17T17:59:25Z) - Towards mapping the contemporary art world with ArtLM: an art-specific
NLP model [0.0]
本報告では, 現代美術家間の相互関係を明らかにするために, 総合自然言語処理フレームワーク(ArtLM)を提案する。
広範囲な実験により, 85.6%の精度と84.0%のF1スコアが得られた。
また,ArtLMの出力から構築したアーティストネットワークの可視化と定性解析も提供する。
論文 参考訳(メタデータ) (2022-12-14T09:26:07Z) - Art Style Classification with Self-Trained Ensemble of AutoEncoding
Transformations [5.835728107167379]
絵画の芸術的スタイルは豊かな記述物であり、アーティストが創造的なビジョンをどのように表現し表現するかについての視覚的知識と深い本質的な知識の両方を明らかにする。
本稿では,高度な自己指導型学習手法を用いて,クラス内およびクラス間変動の少ない複雑な芸術的スタイルを認識することの課題を解決する。
論文 参考訳(メタデータ) (2020-12-06T21:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。