論文の概要: ArtSeek: Deep artwork understanding via multimodal in-context reasoning and late interaction retrieval
- arxiv url: http://arxiv.org/abs/2507.21917v1
- Date: Tue, 29 Jul 2025 15:31:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.564939
- Title: ArtSeek: Deep artwork understanding via multimodal in-context reasoning and late interaction retrieval
- Title(参考訳): ArtSeek:マルチモーダルなインコンテキスト推論と遅延インタラクション検索による深層アート理解
- Authors: Nicola Fanelli, Gennaro Vessio, Giovanna Castellano,
- Abstract要約: ArtSeekは、マルチモーダルな大規模言語モデルと検索強化世代を組み合わせた、アート分析のためのフレームワークである。
ArtSeekは、遅延インタラクション検索に基づくインテリジェントなマルチモーダル検索モジュール、アーティスト、ジャンル、スタイル、メディア、タグを予測するための対照的なマルチタスク分類ネットワーク、エージェント推論戦略の3つの重要なコンポーネントを統合している。
このフレームワークは,GraphCLIPによるスタイル分類の+8.4%,ArtPediaでのキャプションの+7.1BLEU@1向上など,複数のベンチマークで最先端の結果を実現している。
- 参考スコア(独自算出の注目度): 8.94249680213101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Analyzing digitized artworks presents unique challenges, requiring not only visual interpretation but also a deep understanding of rich artistic, contextual, and historical knowledge. We introduce ArtSeek, a multimodal framework for art analysis that combines multimodal large language models with retrieval-augmented generation. Unlike prior work, our pipeline relies only on image input, enabling applicability to artworks without links to Wikidata or Wikipedia-common in most digitized collections. ArtSeek integrates three key components: an intelligent multimodal retrieval module based on late interaction retrieval, a contrastive multitask classification network for predicting artist, genre, style, media, and tags, and an agentic reasoning strategy enabled through in-context examples for complex visual question answering and artwork explanation via Qwen2.5-VL. Central to this approach is WikiFragments, a Wikipedia-scale dataset of image-text fragments curated to support knowledge-grounded multimodal reasoning. Our framework achieves state-of-the-art results on multiple benchmarks, including a +8.4% F1 improvement in style classification over GraphCLIP and a +7.1 BLEU@1 gain in captioning on ArtPedia. Qualitative analyses show that ArtSeek can interpret visual motifs, infer historical context, and retrieve relevant knowledge, even for obscure works. Though focused on visual arts, our approach generalizes to other domains requiring external knowledge, supporting scalable multimodal AI research. Both the dataset and the source code will be made publicly available at https://github.com/cilabuniba/artseek.
- Abstract(参考訳): デジタル化されたアートワークの分析は、視覚的な解釈だけでなく、リッチな芸術的、文脈的、歴史的知識の深い理解も必要としている。
我々は,多モーダル大規模言語モデルと検索拡張生成を組み合わせたアート分析のための多モーダルフレームワークであるArtSeekを紹介する。
以前の作業とは異なり、私たちのパイプラインは画像入力のみに依存しており、ほとんどのデジタル化コレクションにおいてウィキデータやウィキペディア・コモンへのリンクを使わずに、アートワークに適用することが可能です。
ArtSeekは3つの重要なコンポーネントを統合している: 遅延インタラクション検索に基づくインテリジェントなマルチモーダル検索モジュール、アーティスト、ジャンル、スタイル、メディア、タグを予測するためのコントラッシブなマルチタスク分類ネットワーク、複雑な視覚的質問応答とQwen2.5-VLによるアート説明のためのコンテキスト内例によって実現されたエージェント的推論戦略。
WikiFragmentsは知識に基づくマルチモーダル推論をサポートするためにキュレーションされた画像テキストフラグメントのウィキペディア規模のデータセットである。
このフレームワークは,GraphCLIPによるスタイル分類の+8.4%,ArtPediaでのキャプションの+7.1BLEU@1向上など,複数のベンチマークで最先端の結果を実現している。
質的な分析は、ArtSeekが視覚的モチーフを解釈し、歴史的文脈を推測し、不明瞭な作品であっても関連する知識を検索できることを示している。
視覚芸術に重点を置いているが、我々のアプローチは外部知識を必要とする他の領域に一般化し、スケーラブルなマルチモーダルAI研究をサポートする。
データセットとソースコードはhttps://github.com/cilabuniba/artseek.comで公開されている。
関連論文リスト
- ArtRAG: Retrieval-Augmented Generation with Structured Context for Visual Art Understanding [16.9945713458689]
ArtRAGは、構造化知識と検索強化世代(RAG)を組み合わせた新しいフレームワークである。
推測時には、構造化された検索者が意味的およびトポロジカルなサブグラフを選択して生成をガイドする。
SemArtとArtpediaのデータセットの実験では、ArtRAGがいくつかの高度に訓練されたベースラインを上回っている。
論文 参考訳(メタデータ) (2025-05-09T13:08:27Z) - KALE: An Artwork Image Captioning System Augmented with Heterogeneous Graph [24.586916324061168]
本稿では,アートワーク開発のための知識付加型視覚言語モデルを提案する。
KALEはメタデータを2つの方法で組み込む: 第一に直接テキスト入力、第二にマルチモーダルなヘテロジニアス知識グラフである。
実験結果から,KALEは複数のアートデータセットにまたがる既存の最先端の作業に対して高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-09-17T06:39:18Z) - GalleryGPT: Analyzing Paintings with Large Multimodal Models [64.98398357569765]
美術品の分析は、個人の審美性を豊かにし、批判的思考能力を促進することができる芸術鑑賞のための重要かつ基本的な技術である。
アートワークを自動解析する以前の作業は、主に分類、検索、その他の単純なタスクに焦点を当てており、AIの目標とは程遠い。
LLaVAアーキテクチャに基づいて微調整されたGalleryGPTと呼ばれる,絵画解析のための優れた大規模マルチモーダルモデルを提案する。
論文 参考訳(メタデータ) (2024-08-01T11:52:56Z) - MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions [64.89284104414865]
オープンエンド命令をサポートする自己教師付き画像検索モデルであるMagicLensを紹介する。
MagicLensは、重要な新しい洞察に基づいて構築されている。同じWebページで自然に起こるイメージペアは、幅広い暗黙の関係を含んでいる。
MagicLensは、さまざまな画像検索タスクの8つのベンチマークで、これまでの最高値に匹敵する結果を得る。
論文 参考訳(メタデータ) (2024-03-28T17:59:20Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - One-shot Scene Graph Generation [130.57405850346836]
ワンショットシーングラフ生成タスクに対して,複数の構造化知識(関係知識知識)を提案する。
提案手法は既存の最先端手法よりも大きなマージンで優れる。
論文 参考訳(メタデータ) (2022-02-22T11:32:59Z) - The Curious Layperson: Fine-Grained Image Recognition without Expert
Labels [90.88501867321573]
我々は、専門家のアノテーションを使わずに、きめ細かい画像認識という新しい問題を考える。
非専門的な画像記述を用いてオブジェクトの視覚的外観を記述するモデルを学ぶ。
次に、画像記述と文書とを文レベルでマッチングする、きめ細かいテキスト類似性モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-05T17:58:37Z) - Graph Neural Networks for Knowledge Enhanced Visual Representation of Paintings [12.724750260261066]
ArtSAGENetは、グラフニューラルネットワーク(GNN)と畳み込みニューラルネットワーク(CNN)を統合する新しいアーキテクチャである。
提案したArtSAGENetは,アーティストとアートワーク間の重要な依存関係をキャプチャし,エンコードする。
本研究は,美術品分析とキュレーションのための視覚コンテンツとセマンティクスの統合の可能性について考察した。
論文 参考訳(メタデータ) (2021-05-17T23:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。