論文の概要: Artwork Explanation in Large-scale Vision Language Models
- arxiv url: http://arxiv.org/abs/2403.00068v1
- Date: Thu, 29 Feb 2024 19:01:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 19:15:10.146362
- Title: Artwork Explanation in Large-scale Vision Language Models
- Title(参考訳): 大規模視覚言語モデルにおけるアートワークの解説
- Authors: Kazuki Hayashi, Yusuke Sakai, Hidetaka Kamigaito, Katsuhiko Hayashi,
Taro Watanabe
- Abstract要約: 大規模視覚言語モデル(LVLM)は、画像と命令からテキストを出力し、テキスト生成と理解の高度な能力を示す。
そこで我々は,その評価データセットとメトリクスとともに,アートワークの説明生成タスクを提案する。
画像と作品名の両方から説明を生成することと、画像のみを用いて説明を生成することの2つの部分で構成されている。
以上の結果から,LVLMは言語情報と視覚情報の統合に苦慮するだけでなく,画像のみからの知識獲得にも限界があることが示唆された。
- 参考スコア(独自算出の注目度): 32.645448509968226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale vision-language models (LVLMs) output text from images and
instructions, demonstrating advanced capabilities in text generation and
comprehension. However, it has not been clarified to what extent LVLMs
understand the knowledge necessary for explaining images, the complex
relationships between various pieces of knowledge, and how they integrate these
understandings into their explanations. To address this issue, we propose a new
task: the artwork explanation generation task, along with its evaluation
dataset and metric for quantitatively assessing the understanding and
utilization of knowledge about artworks. This task is apt for image description
based on the premise that LVLMs are expected to have pre-existing knowledge of
artworks, which are often subjects of wide recognition and documented
information. It consists of two parts: generating explanations from both images
and titles of artworks, and generating explanations using only images, thus
evaluating the LVLMs' language-based and vision-based knowledge. Alongside, we
release a training dataset for LVLMs to learn explanations that incorporate
knowledge about artworks. Our findings indicate that LVLMs not only struggle
with integrating language and visual information but also exhibit a more
pronounced limitation in acquiring knowledge from images alone. The datasets
(ExpArt=Explain Artworks) are available at
https://huggingface.co/datasets/naist-nlp/ExpArt.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、画像と命令からテキストを出力し、テキスト生成と理解の高度な能力を示す。
しかし、LVLMが画像を説明するのに必要な知識、様々な知識間の複雑な関係、そしてそれらの理解をその説明にどのように組み込むかは明らかになっていない。
そこで本研究では,アートワークに関する知識の理解と活用を定量的に評価するための,アートワーク説明生成タスクとその評価データセットとメトリクスを新たに提案する。
このタスクは、lvlmが既存のアートワークの知識を持っていることを前提に、画像記述に適しており、それはしばしば幅広い認識と文書化の情報の対象である。
画像と作品名の両方から説明を生成することと、画像のみを用いて説明を生成すること、LVLMの言語に基づく知識と視覚に基づく知識を評価することである。
また,アートワークに関する知識を組み込んだ説明を学ぶために,lvlmsのトレーニングデータセットをリリースする。
以上の結果から,LVLMは言語情報と視覚情報の統合に苦慮するだけでなく,画像のみからの知識獲得にも限界があることが示唆された。
データセット(ExpArt=Explain Artworks)はhttps://huggingface.co/datasets/naist-nlp/ExpArtで公開されている。
関連論文リスト
- KALE: An Artwork Image Captioning System Augmented with Heterogeneous Graph [24.586916324061168]
本稿では,アートワーク開発のための知識付加型視覚言語モデルを提案する。
KALEはメタデータを2つの方法で組み込む: 第一に直接テキスト入力、第二にマルチモーダルなヘテロジニアス知識グラフである。
実験結果から,KALEは複数のアートデータセットにまたがる既存の最先端の作業に対して高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-09-17T06:39:18Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding [46.042197741423365]
大規模言語モデル(LLM)は、自然言語理解において大きな進歩を遂げた。
本研究は,LLMが画像の理解も可能かどうかを考察する。
論文 参考訳(メタデータ) (2023-06-09T17:57:01Z) - LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation [51.08810811457617]
LLMにおける視覚言語アライメントは、マルチモーダル推論とビジュアルIOを可能にするために活発に研究されている。
医用画像の視覚言語能力を得るために,テキストのみにLLMを指導する手法を開発した。
このアプローチで訓練したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示す。
論文 参考訳(メタデータ) (2023-05-19T07:44:39Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Leveraging Visual Knowledge in Language Tasks: An Empirical Study on
Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。
実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-03-14T22:02:40Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。