論文の概要: ArtRAG: Retrieval-Augmented Generation with Structured Context for Visual Art Understanding
- arxiv url: http://arxiv.org/abs/2505.06020v1
- Date: Fri, 09 May 2025 13:08:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.268438
- Title: ArtRAG: Retrieval-Augmented Generation with Structured Context for Visual Art Understanding
- Title(参考訳): ArtRAG:ビジュアルアート理解のための構造化コンテキスト付き検索拡張生成
- Authors: Shuai Wang, Ivona Najdenkoska, Hongyi Zhu, Stevan Rudinac, Monika Kackovic, Nachoem Wijnberg, Marcel Worring,
- Abstract要約: ArtRAGは、構造化知識と検索強化世代(RAG)を組み合わせた新しいフレームワークである。
推測時には、構造化された検索者が意味的およびトポロジカルなサブグラフを選択して生成をガイドする。
SemArtとArtpediaのデータセットの実験では、ArtRAGがいくつかの高度に訓練されたベースラインを上回っている。
- 参考スコア(独自算出の注目度): 16.9945713458689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding visual art requires reasoning across multiple perspectives -- cultural, historical, and stylistic -- beyond mere object recognition. While recent multimodal large language models (MLLMs) perform well on general image captioning, they often fail to capture the nuanced interpretations that fine art demands. We propose ArtRAG, a novel, training-free framework that combines structured knowledge with retrieval-augmented generation (RAG) for multi-perspective artwork explanation. ArtRAG automatically constructs an Art Context Knowledge Graph (ACKG) from domain-specific textual sources, organizing entities such as artists, movements, themes, and historical events into a rich, interpretable graph. At inference time, a multi-granular structured retriever selects semantically and topologically relevant subgraphs to guide generation. This enables MLLMs to produce contextually grounded, culturally informed art descriptions. Experiments on the SemArt and Artpedia datasets show that ArtRAG outperforms several heavily trained baselines. Human evaluations further confirm that ArtRAG generates coherent, insightful, and culturally enriched interpretations.
- Abstract(参考訳): 視覚芸術を理解するには、単なる物体認識以上の複数の視点(文化的、歴史的、様式的)での推論が必要である。
最近のマルチモーダル大言語モデル(MLLM)は、一般的な画像キャプションでよく機能するが、細かな芸術的要求の微妙な解釈を捉えるのに失敗することが多い。
構造化知識と検索強化世代(RAG)を組み合わせた,多視点のアート説明のための新しい学習自由フレームワークArtRAGを提案する。
ArtRAGは、ドメイン固有のテキストソースからArt Context Knowledge Graph(ACKG)を自動的に構築し、アーティスト、ムーブメント、テーマ、歴史的なイベントなどのエンティティをリッチで解釈可能なグラフに整理する。
推測時、多粒構造検索器は意味的および位相的関連な部分グラフを選択して生成をガイドする。
これによりMLLMは、文脈に根ざした、文化的にインフォメーションされたアート記述を作成できる。
SemArtとArtpediaのデータセットの実験では、ArtRAGがいくつかの高度に訓練されたベースラインを上回っている。
人間の評価はさらに、ArtRAGが一貫性があり、洞察力があり、文化的に豊かな解釈を生み出すことを裏付けている。
関連論文リスト
- Context-aware Multimodal AI Reveals Hidden Pathways in Five Centuries of Art Evolution [1.8435193934665342]
最先端の生成AI、特に安定拡散を使って、500年の西洋絵画を分析します。
以上の結果から,形式的要素よりも芸術的期間,様式,個人芸術家の文脈的情報の違いが明らかとなった。
我々の生成実験は、将来的な文脈を歴史的美術品に浸透させ、美術品の進化軌道を再現することに成功している。
論文 参考訳(メタデータ) (2025-03-15T10:45:04Z) - Compose Your Aesthetics: Empowering Text-to-Image Models with the Principles of Art [61.28133495240179]
本稿では,ユーザが特定した美学をT2I生成出力と整合させることを目的とした,美学アライメントの新しい課題を提案する。
アートワークが美学にアプローチするための貴重な視点を提供する方法にインスパイアされた私たちは、構成的枠組みのアーティストが採用する視覚的美学を定式化した。
我々は,T2I DMが,ユーザが特定したPoA条件により10の合成制御を効果的に提供することを実証した。
論文 参考訳(メタデータ) (2025-03-15T06:58:09Z) - CognArtive: Large Language Models for Automating Art Analysis and Decoding Aesthetic Elements [1.0579965347526206]
芸術は普遍言語であり、様々な方法で解釈できる。
大規模言語モデル (LLM) とマルチモーダル大規模言語モデル (MLLM) の可用性は,これらのモデルがアートワークの評価と解釈にどのように使用できるのかという疑問を提起する。
論文 参考訳(メタデータ) (2025-02-04T18:08:23Z) - KALE: An Artwork Image Captioning System Augmented with Heterogeneous Graph [24.586916324061168]
本稿では,アートワーク開発のための知識付加型視覚言語モデルを提案する。
KALEはメタデータを2つの方法で組み込む: 第一に直接テキスト入力、第二にマルチモーダルなヘテロジニアス知識グラフである。
実験結果から,KALEは複数のアートデータセットにまたがる既存の最先端の作業に対して高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-09-17T06:39:18Z) - Diffusion-Based Visual Art Creation: A Survey and New Perspectives [51.522935314070416]
本調査は,拡散に基づく視覚芸術創造の新たな領域を探求し,その発展を芸術的,技術的両面から検討する。
本研究は,芸術的要件が技術的課題にどのように変換されるかを明らかにし,視覚芸術創造における拡散法の設計と応用を強調した。
我々は、AIシステムが芸術的知覚と創造性において人間の能力をエミュレートし、潜在的に増強するメカニズムに光を当てることを目指している。
論文 参考訳(メタデータ) (2024-08-22T04:49:50Z) - GalleryGPT: Analyzing Paintings with Large Multimodal Models [64.98398357569765]
美術品の分析は、個人の審美性を豊かにし、批判的思考能力を促進することができる芸術鑑賞のための重要かつ基本的な技術である。
アートワークを自動解析する以前の作業は、主に分類、検索、その他の単純なタスクに焦点を当てており、AIの目標とは程遠い。
LLaVAアーキテクチャに基づいて微調整されたGalleryGPTと呼ばれる,絵画解析のための優れた大規模マルチモーダルモデルを提案する。
論文 参考訳(メタデータ) (2024-08-01T11:52:56Z) - Creating a Lens of Chinese Culture: A Multimodal Dataset for Chinese Pun Rebus Art Understanding [28.490495656348187]
我々は、伝統的な中国文化に根ざした芸術理解のために、パン・レバス・アート・データセットを提供する。
視覚的要素の健全な識別、シンボル的な意味の要素のマッチング、伝達されたメッセージの説明の3つの主要なタスクに焦点をあてる。
我々の評価は、最先端のVLMがこれらの課題に苦しむことを示し、しばしば偏見と幻覚的な説明を提供する。
論文 参考訳(メタデータ) (2024-06-14T16:52:00Z) - Diffusion Based Augmentation for Captioning and Retrieval in Cultural
Heritage [28.301944852273746]
本稿では,文化遺産領域における限られた注釈付きデータとドメインシフトの課題に対処する新しいアプローチを提案する。
生成的視覚言語モデルを活用することで、キャプションに条件付けされた多種多様なアート作品を生成することにより、アートデータセットを増強する。
論文 参考訳(メタデータ) (2023-08-14T13:59:04Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。