論文の概要: ST-SACLF: Style Transfer Informed Self-Attention Classifier for Bias-Aware Painting Classification
- arxiv url: http://arxiv.org/abs/2408.01827v1
- Date: Sat, 3 Aug 2024 17:31:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 18:21:07.256169
- Title: ST-SACLF: Style Transfer Informed Self-Attention Classifier for Bias-Aware Painting Classification
- Title(参考訳): ST-SACLF: Bias-Aware Painting 分類のためのスタイル伝達インフォームド自己認識分類器
- Authors: Mridula Vijendran, Frederick W. B. Li, Jingjing Deng, Hubert P. H. Shum,
- Abstract要約: 絵画分類は、デジタル美術館や古典美術館の美術品を整理し、発見し、提案する上で重要な役割を担っている。
既存の手法は、トレーニング中に実世界の知識を芸術的イメージに適応させることに苦労し、異なるデータセットを扱う際にはパフォーマンスが低下する。
適応インスタンス正規化(AdaIN)を使用したスタイル転送(Style Transfer)により、さまざまなスタイル間のギャップを埋める、より多くのデータを生成します。
40のトレーニングエポック上でResNet-50のバックボーンを使用して、87.24%の精度を実現した。
- 参考スコア(独自算出の注目度): 9.534646914709018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Painting classification plays a vital role in organizing, finding, and suggesting artwork for digital and classic art galleries. Existing methods struggle with adapting knowledge from the real world to artistic images during training, leading to poor performance when dealing with different datasets. Our innovation lies in addressing these challenges through a two-step process. First, we generate more data using Style Transfer with Adaptive Instance Normalization (AdaIN), bridging the gap between diverse styles. Then, our classifier gains a boost with feature-map adaptive spatial attention modules, improving its understanding of artistic details. Moreover, we tackle the problem of imbalanced class representation by dynamically adjusting augmented samples. Through a dual-stage process involving careful hyperparameter search and model fine-tuning, we achieve an impressive 87.24\% accuracy using the ResNet-50 backbone over 40 training epochs. Our study explores quantitative analyses that compare different pretrained backbones, investigates model optimization through ablation studies, and examines how varying augmentation levels affect model performance. Complementing this, our qualitative experiments offer valuable insights into the model's decision-making process using spatial attention and its ability to differentiate between easy and challenging samples based on confidence ranking.
- Abstract(参考訳): 絵画分類は、デジタル美術館や古典美術館の美術品を整理し、発見し、提案する上で重要な役割を担っている。
既存の手法は、トレーニング中に実世界の知識を芸術的イメージに適応させることに苦労し、異なるデータセットを扱う際にはパフォーマンスが低下する。
私たちのイノベーションは、これらの課題に2段階のプロセスで対処することにあります。
まず、アダプティブインスタンス正規化(AdaIN)を用いたスタイル転送(Style Transfer)を使用して、さまざまなスタイル間のギャップを埋めるデータを生成します。
そして,特徴マップ適応型空間アテンションモジュールによって分類器が向上し,芸術的細部への理解が向上する。
さらに,拡張サンプルを動的に調整することで,不均衡なクラス表現の問題に取り組む。
注意深いハイパーパラメータ探索とモデル微調整を含む2段階のプロセスを通じて、40以上のトレーニングエポック上でResNet-50のバックボーンを使用して、87.24\%の精度を実現した。
本研究は,種々の事前学習したバックボーンを比較する定量的解析を行い,アブレーションによるモデル最適化について検討し,モデル性能に与える影響について検討した。
これを完成させた定性的な実験は、空間的注意を用いたモデルの意思決定プロセスと、信頼性ランキングに基づいて、容易かつ困難なサンプルを区別する能力に関する貴重な洞察を提供する。
関連論文リスト
- Preview-based Category Contrastive Learning for Knowledge Distillation [53.551002781828146]
知識蒸留(PCKD)のための新しい予見型カテゴリーコントラスト学習法を提案する。
まず、インスタンスレベルの特徴対応と、インスタンスの特徴とカテゴリ中心の関係の両方の構造的知識を蒸留する。
カテゴリ表現を明示的に最適化し、インスタンスとカテゴリの表現を明確に関連付けることができる。
論文 参考訳(メタデータ) (2024-10-18T03:31:00Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Contrastive-Adversarial and Diffusion: Exploring pre-training and fine-tuning strategies for sulcal identification [3.0398616939692777]
対人学習、コントラスト学習、拡散認知学習、通常の再構成学習といった技術が標準となっている。
この研究は、ニューラルネットワークの学習プロセスを強化するために、事前学習技術と微調整戦略の利点を解明することを目的としている。
論文 参考訳(メタデータ) (2024-05-29T15:44:51Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - Tackling Data Bias in Painting Classification with Style Transfer [12.88476464580968]
そこで我々は,Kaokoreデータセットのような小さな絵画データセットにおいて,データのバイアスを処理するシステムを提案する。
本システムは,スタイル伝達と分類の2段階からなる。
論文 参考訳(メタデータ) (2023-01-06T14:33:53Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Playing to distraction: towards a robust training of CNN classifiers
through visual explanation techniques [1.2321022105220707]
本研究では,視覚的説明手法を学習プロセスに組み込んだ,斬新かつ堅牢なトレーニング手法を提案する。
特に、EgoFoodPlacesデータセットに挑戦し、より低いレベルの複雑さで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-12-28T10:24:32Z) - Two-Level Adversarial Visual-Semantic Coupling for Generalized Zero-shot
Learning [21.89909688056478]
トレーニング中に推論ネットワークを用いて生成ネットワークを増強する2段階のジョイントアイデアを提案する。
これにより、ビジュアルドメインとセマンティックドメイン間の効果的な知識伝達のための強力な相互モーダル相互作用が提供される。
提案手法は,4つのベンチマークデータセットに対して,いくつかの最先端手法に対して評価し,その性能を示す。
論文 参考訳(メタデータ) (2020-07-15T15:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。