論文の概要: Visual Motif Identification: Elaboration of a Curated Comparative Dataset and Classification Methods
- arxiv url: http://arxiv.org/abs/2410.15866v1
- Date: Mon, 21 Oct 2024 10:50:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:18:29.622342
- Title: Visual Motif Identification: Elaboration of a Curated Comparative Dataset and Classification Methods
- Title(参考訳): 視覚的モチーフ同定 - 比較データセットと分類法の比較-
- Authors: Adam Phillips, Daniel Grandes Rodriguez, Miriam Sánchez-Manzano, Alan Salvadó, Manuel Garin, Gloria Haro, Coloma Ballester,
- Abstract要約: 映画では、視覚的なモチーフは、芸術的または美的な意味を持つ反復的な図形的構成である。
私たちのゴールは、これらのモチーフを認識して分類することであり、その目的にカスタムデータセットを使用する新しい機械学習モデルを提案することです。
CLIPモデルから抽出した機能を、浅いネットワークと適切な損失を用いて、20の異なるモチーフに分類し、驚くほど良い結果が得られることを示す。
- 参考スコア(独自算出の注目度): 4.431754853927668
- License:
- Abstract: In cinema, visual motifs are recurrent iconographic compositions that carry artistic or aesthetic significance. Their use throughout the history of visual arts and media is interesting to researchers and filmmakers alike. Our goal in this work is to recognise and classify these motifs by proposing a new machine learning model that uses a custom dataset to that end. We show how features extracted from a CLIP model can be leveraged by using a shallow network and an appropriate loss to classify images into 20 different motifs, with surprisingly good results: an $F_1$-score of 0.91 on our test set. We also present several ablation studies justifying the input features, architecture and hyperparameters used.
- Abstract(参考訳): 映画では、視覚的なモチーフは、芸術的または美的な意味を持つ反復的な図形的構成である。
視覚芸術やメディアの歴史を通じて使用されていることは、研究者や映画製作者にとっても興味深い。
この作業の目標は、これらのモチーフを認識して分類することであり、その目的にカスタムデータセットを使用する新しい機械学習モデルを提案することです。
CLIPモデルから抽出された機能は、浅いネットワークと適切な損失を使用して、20の異なるモチーフに分類することで、どのように活用できるかを示す。
また、入力特徴、アーキテクチャ、ハイパーパラメータを正当化するいくつかのアブレーション研究も提示する。
関連論文リスト
- Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Measuring Style Similarity in Diffusion Models [118.22433042873136]
画像からスタイル記述子を理解し抽出するためのフレームワークを提案する。
我々のフレームワークは、スタイルが画像の主観的特性であるという洞察を用いてキュレートされた新しいデータセットで構成されている。
また、テキスト・ツー・イメージ・モデルのトレーニングデータセットで使用される画像に対して、生成した画像のスタイルに使用できるスタイル属性記述子を抽出する手法を提案する。
論文 参考訳(メタデータ) (2024-04-01T17:58:30Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - ARTxAI: Explainable Artificial Intelligence Curates Deep Representation
Learning for Artistic Images using Fuzzy Techniques [11.286457041998569]
芸術的画像分類における異なる課題から得られる特徴が、類似した性質の他の課題を解決するのにどのように適しているかを示す。
本稿では、画像の既知の視覚特性をディープラーニングモデルで用いる特徴にマッピングする、説明可能な人工知能手法を提案する。
論文 参考訳(メタデータ) (2023-08-29T13:15:13Z) - Predicting beauty, liking, and aesthetic quality: A comparative analysis
of image databases for visual aesthetics research [0.0]
対象認識のために開発された畳み込みニューラルネットワークの層を, (A) 先行研究された20の統計画像特性の集合を用いて, 連続して評価を予測できるかを検討する。
以上の結果から,各データセットにおける審美評価の予測可能性に有意な変化が認められた。
意外なことに、統計的画像特性と畳み込みニューラルネットワークは、類似した精度で美的評価を予測し、この2つの手法が捉えた画像情報の顕著な重複を浮き彫りにした。
論文 参考訳(メタデータ) (2023-07-03T13:03:17Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Learning an Adaptation Function to Assess Image Visual Similarities [0.0]
ここでは、類推が重要となるとき、視覚的イメージ類似性を学ぶための特定のタスクに焦点を当てる。
本稿では,異なるスケールとコンテンツデータセットで事前学習した,教師付き,半教師付き,自己教師型ネットワークの比較を提案する。
The Totally Looks Like Image dataset conducted on the Totally Looks Like image highlight the interest of our method, by increase the search scores of the best model @1 by 2.25x。
論文 参考訳(メタデータ) (2022-06-03T07:15:00Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Learning Portrait Style Representations [34.59633886057044]
高レベル特性を取り入れたニューラルネットワークアーキテクチャによって学習されたスタイル表現について検討する。
美術史家によって注釈付けされた三重奏曲をスタイル類似性の監督として取り入れることで,学習スタイルの特徴の変化を見いだす。
また,計算解析用に用意された肖像画の大規模データセットを初めて提示する。
論文 参考訳(メタデータ) (2020-12-08T01:36:45Z) - A Data Set and a Convolutional Model for Iconography Classification in
Paintings [3.4138918206057265]
美術におけるイコノグラフィー(英: Iconography in art)は、美術作品の視覚的内容を研究し、そのモチーフとテーマを決定する分野である。
コンピュータビジョンの技法を前例のない規模のアートイメージの分析に適用することで、図像学の研究と教育を支援することができる。
論文 参考訳(メタデータ) (2020-10-06T12:40:46Z) - Saliency-driven Class Impressions for Feature Visualization of Deep
Neural Networks [55.11806035788036]
分類に欠かせないと思われる特徴を視覚化することは有利である。
既存の可視化手法は,背景特徴と前景特徴の両方からなる高信頼画像を生成する。
本研究では,あるタスクにおいて最も重要であると考えられる識別的特徴を可視化するための,サリエンシ駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2020-07-31T06:11:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。