論文の概要: Formal Analysis of Art: Proxy Learning of Visual Concepts from Style
Through Language Models
- arxiv url: http://arxiv.org/abs/2201.01819v1
- Date: Wed, 5 Jan 2022 21:03:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-07 13:50:14.538430
- Title: Formal Analysis of Art: Proxy Learning of Visual Concepts from Style
Through Language Models
- Title(参考訳): 芸術の形式的分析:スタイルから言語モデルへの視覚概念のプロキシ学習
- Authors: Diana Kim, Ahmed Elgammal, Marian Mazzone
- Abstract要約: 本稿では,美術の視覚的要素と原理を用いて絵画を定量化する機械学習システムを提案する。
本稿では,絵画の視覚概念を学習する手法として,プロキシ学習(プロキシラーニング)を提案する。
- 参考スコア(独自算出の注目度): 10.854399031287393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a machine learning system that can quantify fine art paintings
with a set of visual elements and principles of art. This formal analysis is
fundamental for understanding art, but developing such a system is challenging.
Paintings have high visual complexities, but it is also difficult to collect
enough training data with direct labels. To resolve these practical
limitations, we introduce a novel mechanism, called proxy learning, which
learns visual concepts in paintings though their general relation to styles.
This framework does not require any visual annotation, but only uses style
labels and a general relationship between visual concepts and style. In this
paper, we propose a novel proxy model and reformulate four pre-existing methods
in the context of proxy learning. Through quantitative and qualitative
comparison, we evaluate these methods and compare their effectiveness in
quantifying the artistic visual concepts, where the general relationship is
estimated by language models; GloVe or BERT. The language modeling is a
practical and scalable solution requiring no labeling, but it is inevitably
imperfect. We demonstrate how the new proxy model is robust to the
imperfection, while the other models are sensitively affected by it.
- Abstract(参考訳): 本稿では,美術の視覚要素と原理のセットを用いて美術絵画を定量化できる機械学習システムを提案する。
この形式的分析は、芸術を理解するのに基本的なものであるが、そのようなシステムの開発は困難である。
絵画は視覚の複雑さが高いが、直接ラベルで十分なトレーニングデータを集めるのも困難である。
これらの実用上の限界を解決するために,絵画における視覚的概念を学習する,プロキシラーニングと呼ばれる新しいメカニズムを導入する。
このフレームワークはビジュアルアノテーションを必要としないが、スタイルラベルとビジュアル概念とスタイル間の一般的な関係のみを使用する。
本稿では,新しいプロキシモデルを提案し,既存の4つの手法をプロキシ学習の文脈で再構成する。
定量的および質的な比較を通じて,これらの手法を評価し,言語モデル,GloVe や BERT で一般的な関係を推定する芸術的視覚概念の定量化における有効性を比較する。
言語モデリングは、ラベル付けを必要としない実用的なスケーラブルなソリューションであるが、必然的に不完全である。
新しいプロキシモデルが不完全性に対して堅牢であるのに対して、他のモデルはその影響を敏感に受けています。
関連論文リスト
- KALE: An Artwork Image Captioning System Augmented with Heterogeneous Graph [24.586916324061168]
本稿では,アートワーク開発のための知識付加型視覚言語モデルを提案する。
KALEはメタデータを2つの方法で組み込む: 第一に直接テキスト入力、第二にマルチモーダルなヘテロジニアス知識グラフである。
実験結果から,KALEは複数のアートデータセットにまたがる既存の最先端の作業に対して高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-09-17T06:39:18Z) - Information Theoretic Text-to-Image Alignment [49.396917351264655]
本稿では,ステア画像生成のための情報理論アライメント尺度を用いた新しい手法を提案する。
提案手法は最先端の手法よりも優れているが,MIを推定するためには事前学習されたデノナイジングネットワークを必要としない。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Not Only Generative Art: Stable Diffusion for Content-Style
Disentanglement in Art Analysis [23.388338598125195]
五屋(ごや)は、近年の創作モデルで捉えた芸術的知識を蒸留して、内容や様式を乱す方法である。
実験により、合成された画像は、アートワークの実際の分布のプロキシとして十分に役立っていることが示された。
論文 参考訳(メタデータ) (2023-04-20T13:00:46Z) - Inching Towards Automated Understanding of the Meaning of Art: An
Application to Computational Analysis of Mondrian's Artwork [0.0]
本稿では,セマンティック処理に関連する能力の同定を試みる。
提案手法は,モンドリアン絵画の理解過程と電子回路設計の理解過程を比較することで,不足する機能を明らかにする。
本手法の有用性を説明するために,モンドリアンの絵画を他の美術品と区別する新しい3段階の計算手法について論じる。
論文 参考訳(メタデータ) (2022-12-29T23:34:19Z) - Inversion-Based Style Transfer with Diffusion Models [78.93863016223858]
以前の任意の例として誘導された芸術的画像生成法は、しばしば形状変化の制御や要素の伝達に失敗する。
画像のキー情報を効率よく正確に学習できるインバージョンベースのスタイル転送手法(InST)を提案する。
論文 参考訳(メタデータ) (2022-11-23T18:44:25Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z) - Rethinking Class Relations: Absolute-relative Supervised and
Unsupervised Few-shot Learning [157.62595449130973]
本稿では,現在の数ショット学習法における単純化型クラスモデリングの基本的問題について検討する。
本稿では,ラベル情報をフル活用して画像表現を洗練するための,絶対相対学習パラダイムを提案する。
論文 参考訳(メタデータ) (2020-01-12T12:25:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。