Fugu-MT 論文翻訳(概要): Artwork Explanation in Large-scale Vision Language Models

論文の概要: Artwork Explanation in Large-scale Vision Language Models

arxiv url: http://arxiv.org/abs/2403.00068v1
Date: Thu, 29 Feb 2024 19:01:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 19:15:10.146362
Title: Artwork Explanation in Large-scale Vision Language Models
Title（参考訳）: 大規模視覚言語モデルにおけるアートワークの解説
Authors: Kazuki Hayashi, Yusuke Sakai, Hidetaka Kamigaito, Katsuhiko Hayashi, Taro Watanabe
Abstract要約: 大規模視覚言語モデル(LVLM)は、画像と命令からテキストを出力し、テキスト生成と理解の高度な能力を示す。そこで我々は,その評価データセットとメトリクスとともに,アートワークの説明生成タスクを提案する。画像と作品名の両方から説明を生成することと、画像のみを用いて説明を生成することの2つの部分で構成されている。以上の結果から,LVLMは言語情報と視覚情報の統合に苦慮するだけでなく,画像のみからの知識獲得にも限界があることが示唆された。
参考スコア（独自算出の注目度）: 32.645448509968226
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale vision-language models (LVLMs) output text from images and instructions, demonstrating advanced capabilities in text generation and comprehension. However, it has not been clarified to what extent LVLMs understand the knowledge necessary for explaining images, the complex relationships between various pieces of knowledge, and how they integrate these understandings into their explanations. To address this issue, we propose a new task: the artwork explanation generation task, along with its evaluation dataset and metric for quantitatively assessing the understanding and utilization of knowledge about artworks. This task is apt for image description based on the premise that LVLMs are expected to have pre-existing knowledge of artworks, which are often subjects of wide recognition and documented information. It consists of two parts: generating explanations from both images and titles of artworks, and generating explanations using only images, thus evaluating the LVLMs' language-based and vision-based knowledge. Alongside, we release a training dataset for LVLMs to learn explanations that incorporate knowledge about artworks. Our findings indicate that LVLMs not only struggle with integrating language and visual information but also exhibit a more pronounced limitation in acquiring knowledge from images alone. The datasets (ExpArt=Explain Artworks) are available at https://huggingface.co/datasets/naist-nlp/ExpArt.
Abstract（参考訳）: 大規模視覚言語モデル(LVLM)は、画像と命令からテキストを出力し、テキスト生成と理解の高度な能力を示す。しかし、LVLMが画像を説明するのに必要な知識、様々な知識間の複雑な関係、そしてそれらの理解をその説明にどのように組み込むかは明らかになっていない。そこで本研究では,アートワークに関する知識の理解と活用を定量的に評価するための,アートワーク説明生成タスクとその評価データセットとメトリクスを新たに提案する。このタスクは、lvlmが既存のアートワークの知識を持っていることを前提に、画像記述に適しており、それはしばしば幅広い認識と文書化の情報の対象である。画像と作品名の両方から説明を生成することと、画像のみを用いて説明を生成すること、LVLMの言語に基づく知識と視覚に基づく知識を評価することである。また,アートワークに関する知識を組み込んだ説明を学ぶために,lvlmsのトレーニングデータセットをリリースする。以上の結果から,LVLMは言語情報と視覚情報の統合に苦慮するだけでなく,画像のみからの知識獲得にも限界があることが示唆された。データセット(ExpArt=Explain Artworks)はhttps://huggingface.co/datasets/naist-nlp/ExpArtで公開されている。

関連論文リスト

CognArtive: Large Language Models for Automating Art Analysis and Decoding Aesthetic Elements [1.0579965347526206]
芸術は普遍言語であり、様々な方法で解釈できる。大規模言語モデル (LLM) とマルチモーダル大規模言語モデル (MLLM) の可用性は,これらのモデルがアートワークの評価と解釈にどのように使用できるのかという疑問を提起する。
論文参考訳（メタデータ） (2025-02-04T18:08:23Z)
KALE: An Artwork Image Captioning System Augmented with Heterogeneous Graph [24.586916324061168]
本稿では,アートワーク開発のための知識付加型視覚言語モデルを提案する。 KALEはメタデータを2つの方法で組み込む: 第一に直接テキスト入力、第二にマルチモーダルなヘテロジニアス知識グラフである。実験結果から,KALEは複数のアートデータセットにまたがる既存の最先端の作業に対して高い性能を発揮することが示された。
論文参考訳（メタデータ） (2024-09-17T06:39:18Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-06T02:02:34Z)
Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding [46.042197741423365]
大規模言語モデル(LLM)は、自然言語理解において大きな進歩を遂げた。本研究は,LLMが画像の理解も可能かどうかを考察する。
論文参考訳（メタデータ） (2023-06-09T17:57:01Z)
LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation [51.08810811457617]
LLMにおける視覚言語アライメントは、マルチモーダル推論とビジュアルIOを可能にするために活発に研究されている。医用画像の視覚言語能力を得るために,テキストのみにLLMを指導する手法を開発した。このアプローチで訓練したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示す。
論文参考訳（メタデータ） (2023-05-19T07:44:39Z)
Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文参考訳（メタデータ） (2022-05-20T13:41:12Z)
Leveraging Visual Knowledge in Language Tasks: An Empirical Study on Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文参考訳（メタデータ） (2022-03-14T22:02:40Z)
Object Relational Graph with Teacher-Recommended Learning for Video Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文参考訳（メタデータ） (2020-02-26T15:34:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。