Fugu-MT 論文翻訳(概要): ArtGPT-4: Towards Artistic-understanding Large Vision-Language Models with Enhanced Adapter

論文の概要: ArtGPT-4: Towards Artistic-understanding Large Vision-Language Models with Enhanced Adapter

arxiv url: http://arxiv.org/abs/2305.07490v5
Date: Tue, 2 Jan 2024 15:29:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 20:16:08.660819
Title: ArtGPT-4: Towards Artistic-understanding Large Vision-Language Models with Enhanced Adapter
Title（参考訳）: artgpt-4: 拡張アダプタを用いた視覚言語モデルの構築
Authors: Zhengqing Yuan, Xinyi Wang, Kun Wang, Lichao Sun
Abstract要約: この研究はArtGPT-4を導入し、芸術的理解における現代モデルの不備に対処するために作られた、大きな視覚言語モデルのパイオニアとなった。 ArtGPT-4は、わずか2時間でTesla A100デバイスを使用して画像テキストペアのトレーニングを受けた。その後の評価では、ArtGPT-4はArtEmisとArtEmis-v2.0データセットの最先端のパフォーマンスを達成しただけでなく、この研究で導入された確立されたベンチマークを上回った。
参考スコア（独自算出の注目度）: 47.0549650864359
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, advancements in large language models have been remarkable, with models such as ChatGPT demonstrating exceptional proficiency in diverse linguistic tasks. The pre-training of large models with billions of parameters, poses a formidable challenge, primarily due to the scarcity of datasets of a commensurate scale for effective training. Nevertheless, innovative strategies have emerged, including methods to fine-tune these pre-trained models using fewer parameters set, as evidenced by models like MiniGPT-4 and LLaVA. Despite their potential in various domains, these models remain limited in their understanding of artistic imagery. They have yet to fully grasp the intricate nuances of art images or to provide an objective articulation of the emotions they evoke, in a manner akin to human perception. This work introduces ArtGPT-4, a pioneering large vision-language model tailored to address the deficiencies of contemporary models in artistic comprehension. ArtGPT-4 underwent training on image-text pairs utilizing a Tesla A100 device in a mere 2 hours, with a dataset comprising approximately 0.52M entries. Impressively, the model can render images with an artistic-understanding and convey the emotions they inspire, mirroring human interpretation. Additionally, this work presents a unique dataset designed to evaluate the efficacy of vision-language models. In subsequent evaluations, ArtGPT-4 not only achieved state-of-the-art performance on the ArtEmis and ArtEmis-v2.0 datasets but also exceeded the established benchmarks introduced in This study, lagging behind professional artists' descriptions by a negligible 0.15 points on a 6-point scale. The code and the pre-trained model are accessible in https://huggingface.co/Tyrannosaurus/ArtGPT-4.
Abstract（参考訳）: 近年、大規模な言語モデルの進歩は目覚ましいもので、chatgptのようなモデルは多様な言語タスクにおいて非常に熟練している。数十億のパラメータを持つ大規模なモデルの事前トレーニングは、主に効果的なトレーニングのための包括的スケールのデータセットが不足しているため、非常に難しい課題となる。しかし、MiniGPT-4やLLaVAのようなモデルによって証明されたように、より少ないパラメータセットを用いて事前訓練されたモデルを微調整する方法を含む革新的な戦略が出現した。様々な領域においてその可能性にもかかわらず、これらのモデルは芸術的イメージの理解に限られている。彼らはまだ、アートイメージの複雑なニュアンスを完全に把握していないし、人間の知覚に類似した方法で、彼らが誘発した感情を客観的に表現している。 artgpt-4は、現代モデルの芸術的理解の欠如に対処するために考案されたビジョン言語モデルである。 ArtGPT-4は、わずか2時間でTesla A100デバイスを使用して画像テキストペアのトレーニングを受けた。印象的なことに、モデルは芸術的理解で画像を描画し、それらが刺激する感情を伝え、人間の解釈を反映することができる。さらに,視覚言語モデルの有効性を評価するために設計されたユニークなデータセットを提案する。その後の評価では、artgpt-4はartemisおよびartemis-v2.0データセットで最先端のパフォーマンスを達成しただけでなく、本研究で導入された既存のベンチマークを上回り、プロのアーティストの記述を6ポイントスケールで0.15ポイント遅れている。コードと事前訓練されたモデルはhttps://huggingface.co/Tyrannosaurus/ArtGPT-4でアクセス可能である。

関連論文リスト

Compose Your Aesthetics: Empowering Text-to-Image Models with the Principles of Art [61.28133495240179]
本稿では,ユーザが特定した美学をT2I生成出力と整合させることを目的とした,美学アライメントの新しい課題を提案する。アートワークが美学にアプローチするための貴重な視点を提供する方法にインスパイアされた私たちは、構成的枠組みのアーティストが採用する視覚的美学を定式化した。我々は,T2I DMが,ユーザが特定したPoA条件により10の合成制御を効果的に提供することを実証した。
論文参考訳（メタデータ） (2025-03-15T06:58:09Z)
CognArtive: Large Language Models for Automating Art Analysis and Decoding Aesthetic Elements [1.0579965347526206]
芸術は普遍言語であり、様々な方法で解釈できる。大規模言語モデル (LLM) とマルチモーダル大規模言語モデル (MLLM) の可用性は,これらのモデルがアートワークの評価と解釈にどのように使用できるのかという疑問を提起する。
論文参考訳（メタデータ） (2025-02-04T18:08:23Z)
Visual Perception in Text Strings [24.60102607739684]
本研究では,ASCIIアートを代表的アーティファクトとして選択し,各概念を表現するための線と明るさを文字で表現する。評価データセットを構築することにより,このタスクにおけるモデル性能をベンチマークし,モデルの視覚的知覚能力を引き出すためのトレーニングセットを収集する。その結果、人間は100%近い精度を達成できるが、最先端のLSMとMLLMははるかに遅れていることがわかった。
論文参考訳（メタデータ） (2024-10-02T16:46:01Z)
GalleryGPT: Analyzing Paintings with Large Multimodal Models [64.98398357569765]
美術品の分析は、個人の審美性を豊かにし、批判的思考能力を促進することができる芸術鑑賞のための重要かつ基本的な技術である。アートワークを自動解析する以前の作業は、主に分類、検索、その他の単純なタスクに焦点を当てており、AIの目標とは程遠い。 LLaVAアーキテクチャに基づいて微調整されたGalleryGPTと呼ばれる,絵画解析のための優れた大規模マルチモーダルモデルを提案する。
論文参考訳（メタデータ） (2024-08-01T11:52:56Z)
VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文参考訳（メタデータ） (2024-06-14T17:59:40Z)
Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models [51.98253148764755]
我々は、LVLMの科学的理解を高めるために、ArXivCapとArXivQAからなるMultimodal ArXivを紹介する。 ArXivCapは、6.4Mの画像と3.9Mキャプションからなるフィギュアキャプチャーデータセットであり、様々な科学領域にまたがる572K ArXivの論文から得られたものである。 ArXivQAは、科学的な数値に基づいてGPT-4Vを誘導することによって生成される質問応答データセットである。
論文参考訳（メタデータ） (2024-03-01T02:21:30Z)
Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文参考訳（メタデータ） (2024-02-26T05:43:51Z)
Diffusion Based Augmentation for Captioning and Retrieval in Cultural Heritage [28.301944852273746]
本稿では,文化遺産領域における限られた注釈付きデータとドメインシフトの課題に対処する新しいアプローチを提案する。生成的視覚言語モデルを活用することで、キャプションに条件付けされた多種多様なアート作品を生成することにより、アートデータセットを増強する。
論文参考訳（メタデータ） (2023-08-14T13:59:04Z)
GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文参考訳（メタデータ） (2023-06-01T14:02:45Z)
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models [41.84885546518666]
GPT-4は、手書きテキストから直接Webサイトを生成するなど、驚くべきマルチモーダル能力を示している。凍結型ビジュアルエンコーダと凍結型大規模言語モデルとを協調するMiniGPT-4を提案する。また,MiniGPT-4の新たな特徴として,与えられた画像にインスパイアされた物語や詩を書くことが挙げられる。
論文参考訳（メタデータ） (2023-04-20T18:25:35Z)
Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文参考訳（メタデータ） (2023-04-17T17:59:25Z)
Towards mapping the contemporary art world with ArtLM: an art-specific NLP model [0.0]
本報告では, 現代美術家間の相互関係を明らかにするために, 総合自然言語処理フレームワーク(ArtLM)を提案する。広範囲な実験により, 85.6%の精度と84.0%のF1スコアが得られた。また,ArtLMの出力から構築したアーティストネットワークの可視化と定性解析も提供する。
論文参考訳（メタデータ） (2022-12-14T09:26:07Z)
Art Style Classification with Self-Trained Ensemble of AutoEncoding Transformations [5.835728107167379]
絵画の芸術的スタイルは豊かな記述物であり、アーティストが創造的なビジョンをどのように表現し表現するかについての視覚的知識と深い本質的な知識の両方を明らかにする。本稿では,高度な自己指導型学習手法を用いて,クラス内およびクラス間変動の少ない複雑な芸術的スタイルを認識することの課題を解決する。
論文参考訳（メタデータ） (2020-12-06T21:05:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。