論文の概要: Do Transformers Understand Ancient Roman Coin Motifs Better than CNNs?
- arxiv url: http://arxiv.org/abs/2601.09433v1
- Date: Wed, 14 Jan 2026 12:30:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.395563
- Title: Do Transformers Understand Ancient Roman Coin Motifs Better than CNNs?
- Title(参考訳): トランスフォーマーは古代ローマのコインモチーフをCNNよりよく理解しているか?
- Authors: David Reid, Ognjen Arandjelovic,
- Abstract要約: 本稿では,コイン上の意味要素を識別するタスクにViT(Vision Transformer)ディープラーニングアーキテクチャを適用した最初の例である。
ViTモデルは、新しく訓練されたCNNモデルよりも正確であることが判明した。
- 参考スコア(独自算出の注目度): 10.98262871652922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated analysis of ancient coins has the potential to help researchers extract more historical insights from large collections of coins and to help collectors understand what they are buying or selling. Recent research in this area has shown promise in focusing on identification of semantic elements as they are commonly depicted on ancient coins, by using convolutional neural networks (CNNs). This paper is the first to apply the recently proposed Vision Transformer (ViT) deep learning architecture to the task of identification of semantic elements on coins, using fully automatic learning from multi-modal data (images and unstructured text). This article summarises previous research in the area, discusses the training and implementation of ViT and CNN models for ancient coins analysis and provides an evaluation of their performance. The ViT models were found to outperform the newly trained CNN models in accuracy.
- Abstract(参考訳): 古代のコインの自動分析は、研究者が大量のコインのコレクションからより歴史的な洞察を抽出し、コレクターが購入または販売しているものを理解するのに役立つ可能性がある。
この領域における最近の研究は、畳み込みニューラルネットワーク(CNN)を用いて、古代の硬貨に一般的に描かれる意味要素の識別に焦点を合わせることを約束している。
本稿では,最近提案されたビジョントランスフォーマー(ViT)ディープラーニングアーキテクチャを,マルチモーダルデータ(画像および非構造化テキスト)からの完全自動学習を用いてコイン上の意味要素の識別タスクに適用した。
本稿では、この領域における過去の研究を要約し、古代の硬貨分析のためのViTおよびCNNモデルの訓練と実装について論じ、その性能評価を行う。
ViTモデルは、新しく訓練されたCNNモデルよりも正確であることが判明した。
関連論文リスト
- Combined CNN and ViT features off-the-shelf: Another astounding baseline for recognition [49.14350399025926]
本稿では,ImageNet Large Scale Visual Recognition Challengeのために開発された事前学習型アーキテクチャを,近視認識に適用する。
CNNとViTの中間層の特徴は、近視画像に基づいて個人を認識するのに適した方法である。
論文 参考訳(メタデータ) (2024-07-28T11:52:36Z) - InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions [95.94629864981091]
この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。
提案されたInternImageは、従来のCNNの厳格な帰納バイアスを低減し、ViTのような大規模データから、より強く堅牢なパターンを学習できるようにする。
論文 参考訳(メタデータ) (2022-11-10T18:59:04Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Dynamic Gesture Recognition [0.0]
従来のコンピュータビジョンアルゴリズムの代わりに、機械学習を使って画像や動画を分類することができる。
このプロジェクトの目的は、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の共生を構築することである。
論文 参考訳(メタデータ) (2021-09-20T09:45:29Z) - Decoding CNN based Object Classifier Using Visualization [6.666597301197889]
CNNのさまざまな畳み込み層で抽出される特徴の種類を視覚化する。
アクティベーションのヒートマップを可視化することは、CNNが画像内の異なるオブジェクトを分類し、ローカライズする方法を理解するのに役立ちます。
論文 参考訳(メタデータ) (2020-07-15T05:01:27Z) - An Information-theoretic Visual Analysis Framework for Convolutional
Neural Networks [11.15523311079383]
CNNモデルから抽出可能なデータを整理するデータモデルを提案する。
次に、異なる状況下でエントロピーを計算する2つの方法を提案する。
我々は,モデル内の情報変化量をインタラクティブに探索する視覚解析システムCNNSlicerを開発した。
論文 参考訳(メタデータ) (2020-05-02T21:36:50Z) - CNN Explainer: Learning Convolutional Neural Networks with Interactive
Visualization [23.369550871258543]
CNN Explainerは、非専門家が畳み込みニューラルネットワーク(CNN)を学習し、検証するために設計されたインタラクティブな可視化ツールである。
我々のツールは、CNNについて学びながら初心者が直面する重要な課題に対処し、インストラクターへのインタビューや過去の学生に対する調査から識別する。
CNN Explainerは、ユーザがCNNの内部動作をより理解しやすくし、興味深く、使いやすくする。
論文 参考訳(メタデータ) (2020-04-30T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。