論文の概要: Multi-task Learning for Identification of Porcelain in Song and Yuan Dynasties
- arxiv url: http://arxiv.org/abs/2503.14231v1
- Date: Tue, 18 Mar 2025 13:09:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:17:11.051238
- Title: Multi-task Learning for Identification of Porcelain in Song and Yuan Dynasties
- Title(参考訳): 宋代・元代における陶磁器識別のためのマルチタスク学習
- Authors: Ziyao Ling, Giovanni Delnevo, Paola Salomoni, Silvia Mirri,
- Abstract要約: 中国の陶磁器は、歴史的、文化的に大きな価値を持っている。
伝統的な分類法は専門家分析に大きく依存している。
本稿では, 陶磁器の分類を自動化するために, DLと転写学習技術の応用について検討する。
- 参考スコア(独自算出の注目度): 2.597403813419683
- License:
- Abstract: Chinese porcelain holds immense historical and cultural value, making its accurate classification essential for archaeological research and cultural heritage preservation. Traditional classification methods rely heavily on expert analysis, which is time-consuming, subjective, and difficult to scale. This paper explores the application of DL and transfer learning techniques to automate the classification of porcelain artifacts across four key attributes: dynasty, glaze, ware, and type. We evaluate four Convolutional Neural Networks (CNNs) - ResNet50, MobileNetV2, VGG16, and InceptionV3 - comparing their performance with and without pre-trained weights. Our results demonstrate that transfer learning significantly enhances classification accuracy, particularly for complex tasks like type classification, where models trained from scratch exhibit lower performance. MobileNetV2 and ResNet50 consistently achieve high accuracy and robustness across all tasks, while VGG16 struggles with more diverse classifications. We further discuss the impact of dataset limitations and propose future directions, including domain-specific pre-training, integration of attention mechanisms, explainable AI methods, and generalization to other cultural artifacts.
- Abstract(参考訳): 中国の陶磁器は歴史的・文化的に大きな価値を有しており、考古学研究や文化財保存に欠かせない正確な分類となっている。
従来の分類法は、時間を要する、主観的で、スケールが難しい専門家分析に大きく依存している。
本稿では,4つの重要な属性(王朝,ガラス,陶器,型)にまたがる磁器の分類を自動化するために,DLと転写学習技術の応用について検討する。
我々は、ResNet50、MobileNetV2、VGG16、InceptionV3の4つの畳み込みニューラルネットワーク(CNN)を評価し、その性能と事前訓練した重み付けの有無を比較した。
以上の結果から,転帰学習は分類精度を著しく向上させ,特に,スクラッチから訓練したモデルが低い性能を示す型分類のような複雑なタスクに対して有効であることが示された。
MobileNetV2とResNet50は、すべてのタスクにおいて高い精度と堅牢性を達成する一方、VGG16はより多様な分類に苦慮している。
さらに、データセットの制限の影響を議論し、ドメイン固有の事前学習、注意機構の統合、説明可能なAI手法、その他の文化的アーティファクトへの一般化など、今後の方向性を提案する。
関連論文リスト
- Enhanced Infield Agriculture with Interpretable Machine Learning Approaches for Crop Classification [0.49110747024865004]
本研究では、SIFT、ORB、Color Histogramなどの手作り特徴抽出手法を用いた従来のML、カスタムデザインCNN、AlexNetのようなDLアーキテクチャの確立、ImageNetを用いて事前訓練された5つのモデルの移行学習の4つの異なる分類手法を評価する。
Xceptionはこれら全てを一般化し、80.03MBのモデルサイズと0.0633秒の予測時間で98%の精度を達成した。
論文 参考訳(メタデータ) (2024-08-22T14:20:34Z) - Adinkra Symbol Recognition using Classical Machine Learning and Deep
Learning [0.0]
我々は、6つの畳み込み層、3つの完全連結層、オプションのドロップアウト正規化を用いて、分類と認識のためのCNNモデルを構築した。
モデルの精度と収束率を測定することにより,モデルの性能を評価する。
この応用が、私たちの伝統的かつモダンな生活を組織する上で、AIのさまざまな用途に関するアイデアを刺激することを期待しています。
論文 参考訳(メタデータ) (2023-11-27T11:26:41Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Measuring Progress in Fine-grained Vision-and-Language Understanding [23.377634283746698]
詳細なベンチマークにおいて、4つの競合する視覚・言語モデルについて検討する。
X-VLMは、他のベースラインよりも一貫して優れています。
細かなスキルを習得する上で,新たな損失と豊富なデータソースの両方の重要性を強調した。
論文 参考訳(メタデータ) (2023-05-12T15:34:20Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。
まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。
第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文 参考訳(メタデータ) (2021-08-29T05:45:03Z) - Affect Analysis in-the-wild: Valence-Arousal, Expressions, Action Units
and a Unified Framework [83.21732533130846]
Aff-Wild と Aff-Wild2 の2つである。
これは、これらのデータベースで訓練された深層ニューラルネットワークの2つのクラスの設計を示す。
インパクト認識を共同で学び、効果的に一般化し、実行することができる新しいマルチタスクおよび全体主義のフレームワークが提示されます。
論文 参考訳(メタデータ) (2021-03-29T17:36:20Z) - A Study of Few-Shot Audio Classification [2.1989764549743476]
ファウショット学習(Few-shot learning)は、モデルが新しいクラスに一般化できるように設計された機械学習の一種である。
我々は,VoxCelebデータセットとICSI Meeting Corpusの話者識別モデルを評価し,それぞれ93.5%,54.0%の5ショット5ウェイ精度を得た。
また、Kineetics600データセットとAudioSetの少数ショットサブセットを用いてオーディオからのアクティビティ分類を評価し、それぞれ51.5%と35.2%の精度でYouTubeビデオから抽出した。
論文 参考訳(メタデータ) (2020-12-02T22:19:16Z) - Concept Learners for Few-Shot Learning [76.08585517480807]
本研究では,人間の解釈可能な概念次元に沿って学習することで,一般化能力を向上させるメタ学習手法であるCOMETを提案する。
我々は,細粒度画像分類,文書分類,セルタイプアノテーションなど,さまざまな領域からの少数ショットタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2020-07-14T22:04:17Z) - Fine-Grain Few-Shot Vision via Domain Knowledge as Hyperspherical Priors [79.22051549519989]
プロトタイプネットワークは、コンピュータビジョンにおいて、数ショットの学習タスクでうまく機能することが示されている。
ドメイン知識を情報的先行要素として取り入れつつ,クラスを最大限に分離することで,数発の微粒化を実現する方法を示す。
論文 参考訳(メタデータ) (2020-05-23T02:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。