論文の概要: A Fusion Model for Art Style and Author Recognition Based on Convolutional Neural Networks and Transformers
- arxiv url: http://arxiv.org/abs/2502.18083v1
- Date: Tue, 25 Feb 2025 10:52:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:22:16.469926
- Title: A Fusion Model for Art Style and Author Recognition Based on Convolutional Neural Networks and Transformers
- Title(参考訳): 畳み込みニューラルネットワークと変圧器を用いたアートスタイルと著者認識のための融合モデル
- Authors: Zhenyu Wang, Heng Song,
- Abstract要約: 本稿では,CNNとトランスフォーマーを組み合わせた融合モデルを提案する。
中国と石油の絵画データセットの実験では、融合モデルは個々のCNNとトランスフォーマーモデルより優れていた。
- 参考スコア(独自算出の注目度): 6.57747694461617
- License:
- Abstract: The recognition of art styles and authors is crucial in areas like cultural heritage protection, art market analysis, and historical research. With the advancement of deep learning, Convolutional Neural Networks (CNNs) and Transformer models have become key tools for image classification. While CNNs excel in local feature extraction, they struggle with global context, and Transformers are strong in capturing global dependencies but weak in fine-grained local details. To address these challenges, this paper proposes a fusion model combining CNNs and Transformers for art style and author recognition. The model first extracts local features using CNNs, then captures global context with a Transformer, followed by a feature fusion mechanism to enhance classification accuracy. Experiments on Chinese and oil painting datasets show the fusion model outperforms individual CNN and Transformer models, improving classification accuracy by 9.7% and 7.1%, respectively, and increasing F1 scores by 0.06 and 0.05. The results demonstrate the model's effectiveness and potential for future improvements, such as multimodal integration and architecture optimization.
- Abstract(参考訳): 美術様式や作家の認識は、文化遺産保護、美術市場分析、歴史研究などにおいて重要である。
ディープラーニングの進歩に伴い、畳み込みニューラルネットワーク(CNN)とトランスフォーマーモデルは、画像分類の鍵となるツールとなっている。
CNNは局所的な特徴抽出に優れていますが、グローバルなコンテキストでは苦労しています。
そこで本研究では,CNNとトランスフォーマーを組み合わせた融合モデルを提案する。
このモデルはまずCNNを用いて局所的な特徴を抽出し、次にTransformerでグローバルなコンテキストをキャプチャし、次に分類精度を高めるための特徴融合機構を付加する。
中国と油絵のデータセットの実験では、融合モデルは個々のCNNとトランスフォーマーモデルより優れており、それぞれ9.7%と7.1%の分類精度が向上し、F1スコアは0.06と0.05に増加した。
この結果は,マルチモーダル統合やアーキテクチャ最適化など,モデルの有効性と今後の改善の可能性を示すものである。
関連論文リスト
- CNN-Transformer Rectified Collaborative Learning for Medical Image Segmentation [60.08541107831459]
本稿では,医用画像セグメンテーションのための強力なCNNベースモデルとトランスフォーマーベースモデルを学習するための,CNN-Transformer修正協調学習フレームワークを提案する。
具体的には,学生ソフトラベルの誤り領域を適応的に選択・修正する基礎的真理を取り入れた修正ロジット・ワイド・コラボレーティブ・ラーニング(RLCL)戦略を提案する。
また,機能空間におけるCNNベースモデルとTransformerベースモデル間の効果的な知識伝達を実現するために,クラス認識型特徴量協調学習(CFCL)戦略を提案する。
論文 参考訳(メタデータ) (2024-08-25T01:27:35Z) - Boosting Hyperspectral Image Classification with Gate-Shift-Fuse Mechanisms in a Novel CNN-Transformer Approach [8.982950112225264]
本稿では,GSFブロックと変圧器ブロックの2つの畳み込みブロックを含むHSI分類モデルを提案する。
GSFブロックは局所的および大域的空間スペクトルの特徴の抽出を強化するように設計されている。
HSI立方体からの情報の抽出を促進するために,効果的な注意機構モジュールも提案されている。
論文 参考訳(メタデータ) (2024-06-20T09:05:50Z) - Transformers and Slot Encoding for Sample Efficient Physical World Modelling [1.5498250598583487]
本研究では,世界モデリングのためのトランスフォーマーとスロットアテンションパラダイムを組み合わせたアーキテクチャを提案する。
得られたニューラルアーキテクチャについて述べるとともに、既存のソリューションよりも、サンプル効率とトレーニング例よりも性能の変動を低減できることを示す実験結果を報告する。
論文 参考訳(メタデータ) (2024-05-30T15:48:04Z) - Traffic Sign Recognition Using Local Vision Transformer [1.8416014644193066]
本稿では,交通信号認識のための畳み込み型ネットワークと変圧器型ネットワークの両利点を融合した新しいモデルを提案する。
提案モデルには、局所的相関をキャプチャする畳み込みブロックと、グローバルな依存関係を学習するトランスフォーマーベースのブロックが含まれる。
実験により, 局所性モジュールを用いたハイブリッドネットワークは, 純粋なトランスフォーマーモデルおよび最も優れた畳み込みネットワークよりも精度が高いことを示した。
論文 参考訳(メタデータ) (2023-11-11T19:42:41Z) - Breast Ultrasound Tumor Classification Using a Hybrid Multitask
CNN-Transformer Network [63.845552349914186]
胸部超音波(BUS)画像分類において,グローバルな文脈情報の収集が重要な役割を担っている。
ビジョントランスフォーマーは、グローバルなコンテキスト情報をキャプチャする能力が改善されているが、トークン化操作によって局所的なイメージパターンを歪めてしまう可能性がある。
本研究では,BUS腫瘍分類とセグメンテーションを行うハイブリッドマルチタスクディープニューラルネットワークであるHybrid-MT-ESTANを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:19:32Z) - Deep Digging into the Generalization of Self-Supervised Monocular Depth
Estimation [12.336888210144936]
近年,自己監督型単分子深度推定法が広く研究されている。
単眼深度推定の一般化に向けたバックボーンネットワーク(CNN, Transformer, CNN-Transformerハイブリッドモデルなど)について検討する。
論文 参考訳(メタデータ) (2022-05-23T06:56:25Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - A Battle of Network Structures: An Empirical Study of CNN, Transformer,
and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。
トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。
本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文 参考訳(メタデータ) (2021-08-30T06:09:02Z) - Fusion of CNNs and statistical indicators to improve image
classification [65.51757376525798]
畳み込みネットワークは過去10年間、コンピュータビジョンの分野を支配してきた。
この傾向を長引かせる主要な戦略は、ネットワーク規模の拡大によるものだ。
我々は、異種情報ソースを追加することは、より大きなネットワークを構築するよりもCNNにとって費用対効果が高いと仮定している。
論文 参考訳(メタデータ) (2020-12-20T23:24:31Z) - Conformer: Convolution-augmented Transformer for Speech Recognition [60.119604551507805]
最近、トランスフォーマーと畳み込みニューラルネットワーク(CNN)に基づくモデルが、自動音声認識(ASR)の有望な結果を示している。
音声認識のための畳み込み拡張変換器,Conformerを提案する。
広く使われているLibriSpeechベンチマークでは、言語モデルを用いずにWERが2.1%/4.3%、テスト/テストの外部言語モデルで1.9%/3.9%を達成した。
論文 参考訳(メタデータ) (2020-05-16T20:56:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。