論文の概要: Recognizing Characters in Art History Using Deep Learning
- arxiv url: http://arxiv.org/abs/2003.14171v2
- Date: Wed, 1 Apr 2020 11:37:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 01:24:11.377397
- Title: Recognizing Characters in Art History Using Deep Learning
- Title(参考訳): 深層学習を用いた美術史の文字認識
- Authors: Prathmesh Madhu, Ronak Kosti, Lara M\"uhrenberg, Peter Bell, Andreas
Maier, Vincent Christlein
- Abstract要約: 本稿では,美術史における文字認識の問題に焦点をあてる。
我々は、類似したスタイルでより多くのデータを生成し、類似したドメインで効果的にデータを生成する新しい手法を導入する。
ドメイン関連データに基づいてトレーニングされたモデルが,キャラクタ認識に最適な性能を示すことを示す。
- 参考スコア(独自算出の注目度): 20.33359041243155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of Art History, images of artworks and their contexts are core
to understanding the underlying semantic information. However, the highly
complex and sophisticated representation of these artworks makes it difficult,
even for the experts, to analyze the scene. From the computer vision
perspective, the task of analyzing such artworks can be divided into
sub-problems by taking a bottom-up approach. In this paper, we focus on the
problem of recognizing the characters in Art History. From the iconography of
$Annunciation$ $of$ $the$ $Lord$ (Figure 1), we consider the representation of
the main protagonists, $Mary$ and $Gabriel$, across different artworks and
styles. We investigate and present the findings of training a character
classifier on features extracted from their face images. The limitations of
this method, and the inherent ambiguity in the representation of $Gabriel$,
motivated us to consider their bodies (a bigger context) to analyze in order to
recognize the characters. Convolutional Neural Networks (CNN) trained on the
bodies of $Mary$ and $Gabriel$ are able to learn person related features and
ultimately improve the performance of character recognition. We introduce a new
technique that generates more data with similar styles, effectively creating
data in the similar domain. We present experiments and analysis on three
different models and show that the model trained on domain related data gives
the best performance for recognizing character. Additionally, we analyze the
localized image regions for the network predictions. Code is open-sourced and
available at
https://github.com/prathmeshrmadhu/recognize_characters_art_history and the
link to the published peer-reviewed article is
https://dl.acm.org/citation.cfm?id=3357242.
- Abstract(参考訳): 美術史の分野において、芸術作品とその文脈のイメージは、基礎となる意味的情報を理解するための核心である。
しかし、これらの芸術作品の非常に複雑で洗練された表現は、専門家にとっても、現場の分析を困難にしている。
コンピュータビジョンの観点からは、このようなアートワークを分析するタスクはボトムアップアプローチを用いてサブプロブレムに分割することができる。
本稿では,美術史における文字認識の問題に焦点をあてる。
図1:$annunciation $of$$the$ $ $lord$(図1)では、主要な主人公の表現である$mary$と$gabriel$を異なるアートワークとスタイルにまたがって考える。
顔画像から抽出した特徴に基づいて文字分類器の訓練を行った結果について検討した。
この方法の限界と、$gabriel$の表現に固有のあいまいさは、文字を認識するために、それらの体(より大きな文脈)を分析することを動機付けました。
mary$と$gabriel$でトレーニングされた畳み込みニューラルネットワーク(cnn)は、人に関連する特徴を学習し、最終的に文字認識のパフォーマンスを向上させることができる。
我々は、類似したスタイルでより多くのデータを生成し、類似したドメインで効率的にデータを生成する新しい技術を導入する。
本稿では,3つの異なるモデルについて実験と分析を行い,ドメイン関連データで学習したモデルがキャラクタ認識に最適な性能を与えることを示す。
さらに,ネットワーク予測のための局所画像領域の解析を行う。
コードはhttps://github.com/prathmeshrmadhu/recognize_characters_art_historyで公開されている。
id=3357242。
関連論文リスト
- KALE: An Artwork Image Captioning System Augmented with Heterogeneous Graph [24.586916324061168]
本稿では,アートワーク開発のための知識付加型視覚言語モデルを提案する。
KALEはメタデータを2つの方法で組み込む: 第一に直接テキスト入力、第二にマルチモーダルなヘテロジニアス知識グラフである。
実験結果から,KALEは複数のアートデータセットにまたがる既存の最先端の作業に対して高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-09-17T06:39:18Z) - ARTxAI: Explainable Artificial Intelligence Curates Deep Representation
Learning for Artistic Images using Fuzzy Techniques [11.286457041998569]
芸術的画像分類における異なる課題から得られる特徴が、類似した性質の他の課題を解決するのにどのように適しているかを示す。
本稿では、画像の既知の視覚特性をディープラーニングモデルで用いる特徴にマッピングする、説明可能な人工知能手法を提案する。
論文 参考訳(メタデータ) (2023-08-29T13:15:13Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - One-shot Scene Graph Generation [130.57405850346836]
ワンショットシーングラフ生成タスクに対して,複数の構造化知識(関係知識知識)を提案する。
提案手法は既存の最先端手法よりも大きなマージンで優れる。
論文 参考訳(メタデータ) (2022-02-22T11:32:59Z) - The Curious Layperson: Fine-Grained Image Recognition without Expert
Labels [90.88501867321573]
我々は、専門家のアノテーションを使わずに、きめ細かい画像認識という新しい問題を考える。
非専門的な画像記述を用いてオブジェクトの視覚的外観を記述するモデルを学ぶ。
次に、画像記述と文書とを文レベルでマッチングする、きめ細かいテキスト類似性モデルを訓練する。
論文 参考訳(メタデータ) (2021-11-05T17:58:37Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - Learning Portrait Style Representations [34.59633886057044]
高レベル特性を取り入れたニューラルネットワークアーキテクチャによって学習されたスタイル表現について検討する。
美術史家によって注釈付けされた三重奏曲をスタイル類似性の監督として取り入れることで,学習スタイルの特徴の変化を見いだす。
また,計算解析用に用意された肖像画の大規模データセットを初めて提示する。
論文 参考訳(メタデータ) (2020-12-08T01:36:45Z) - Understanding Compositional Structures in Art Historical Images using
Pose and Gaze Priors [20.98603643788824]
画像合成は、アーティストとそのアートワークを研究するために、画像内の相互作用を分析するのに有用である。
本研究では,既存の機械学習技術を用いて,このプロセスの自動化を試みる。
本手法は, (a) 絵画のアクション領域とアクションラインの検出, (b) 前景と背景のポーズに基づくセグメンテーションの2つの中心的なテーマに焦点を当てる。
論文 参考訳(メタデータ) (2020-09-08T15:01:56Z) - Visual link retrieval and knowledge discovery in painting datasets [14.149494915144322]
本稿では,デジタル絵画データセットにおける視覚的リンク検索と知識発見のためのフレームワークを提案する。
ビジュアルリンク検索は、ディープ畳み込みニューラルネットワークを用いて特徴抽出を行う。
歴史的知識発見は、グラフ解析を行うことによって達成される。
論文 参考訳(メタデータ) (2020-03-18T21:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。