論文の概要: Comparison of Different Deep Neural Network Models in the Cultural Heritage Domain
- arxiv url: http://arxiv.org/abs/2504.21387v1
- Date: Wed, 30 Apr 2025 07:38:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:57:01.129218
- Title: Comparison of Different Deep Neural Network Models in the Cultural Heritage Domain
- Title(参考訳): 文化遺産領域におけるディープニューラルネットワークモデルの比較
- Authors: Teodor Boyadzhiev, Gabriele Lagani, Luca Ciampi, Giuseppe Amato, Krassimira Ivanova,
- Abstract要約: コンピュータビジョンの分野では2つのディープラーニングパラダイムが確立されている。
DenseNetは効率-計算可能性比の点で最高です。
- 参考スコア(独自算出の注目度): 4.025747321359555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of computer vision and deep learning is an essential part of documenting and preserving cultural heritage, as well as improving visitor experiences. In recent years, two deep learning paradigms have been established in the field of computer vision: convolutional neural networks and transformer architectures. The present study aims to make a comparative analysis of some representatives of these two techniques of their ability to transfer knowledge from generic dataset, such as ImageNet, to cultural heritage specific tasks. The results of testing examples of the architectures VGG, ResNet, DenseNet, Visual Transformer, Swin Transformer, and PoolFormer, showed that DenseNet is the best in terms of efficiency-computability ratio.
- Abstract(参考訳): コンピュータビジョンと深層学習の統合は、文化遺産の文書化と保存、訪問体験の改善に不可欠である。
近年、コンピュータビジョンの分野では畳み込みニューラルネットワークとトランスフォーマーアーキテクチャという2つのディープラーニングパラダイムが確立されている。
本研究の目的は,イメージネットなどの汎用データセットから文化遺産特定タスクへ知識を伝達する能力について,これらの2つの技術の代表者の比較分析を行うことである。
VGG、ResNet、DenseNet、Visual Transformer、Swin Transformer、PoolFormerといったアーキテクチャのテスト結果は、DenseNetが効率-計算可能性比の点で最高のものであることを示した。
関連論文リスト
- A Review of Transformer-Based Models for Computer Vision Tasks: Capturing Global Context and Spatial Relationships [0.5639904484784127]
トランスフォーマーモデルによる自然言語処理(NLP)の展望の変化
これらのモデルは、長距離依存やコンテキスト情報をキャプチャする能力で有名である。
コンピュータビジョンにおけるトランスフォーマーモデルの研究の方向性と応用について論じる。
論文 参考訳(メタデータ) (2024-08-27T16:22:18Z) - Super Consistency of Neural Network Landscapes and Learning Rate Transfer [72.54450821671624]
我々は、失われたヘッセンのレンズを通して風景を研究する。
我々は、$mu$P のスペクトル特性がネットワークの大きさに大きく依存していることを発見した。
ニューラルタンジェントカーネル(NTK)や他のスケーリングシステムでは、シャープネスは異なるスケールで非常に異なるダイナミクスを示す。
論文 参考訳(メタデータ) (2024-02-27T12:28:01Z) - Interpret Vision Transformers as ConvNets with Dynamic Convolutions [70.59235381143831]
我々は、ビジョントランスフォーマーを動的畳み込みを備えたConvNetと解釈し、既存のトランスフォーマーと動的コンバータを統一されたフレームワークで特徴付けることができる。
ConvNetsの設計空間から視覚変換器を考えることができるため、我々の解釈もネットワーク設計を導くことができる。
論文 参考訳(メタデータ) (2023-09-19T16:00:49Z) - Designing Deep Networks for Scene Recognition [3.493180651702109]
ネットワーク設計において広く受け入れられている原則を実証するために、広範な実験を行い、データを変更すると劇的な性能差が生じる可能性があることを実証する。
本稿では,データ指向ネットワーク設計という新しいネットワーク設計手法を提案する。
本稿では,半分未満の計算資源を用いてシーン認識性能を向上させるディープ・ナロー・ネットワークとDilated Poolingモジュールを提案する。
論文 参考訳(メタデータ) (2023-03-13T18:28:06Z) - Investigation of Network Architecture for Multimodal Head-and-Neck Tumor
Segmentation [9.441769048218955]
本研究では,トランスフォーマーを用いたマルチモーダルヘッド・アンド・腫瘍セグメンテーションのためのネットワークアーキテクチャを最近発表した。
以上の結果から,大規模構造が存在する場合や視野が大きい場合には,長距離依存関係のモデリングが有用である可能性が示唆された。
頭頸部腫瘍のような小さな構造では、畳み込みに基づくU-Netアーキテクチャは、特にトレーニングデータセットが小さく、計算資源が限られている場合、うまく機能しているように思われた。
論文 参考訳(メタデータ) (2022-12-21T02:35:46Z) - Comparison Analysis of Traditional Machine Learning and Deep Learning
Techniques for Data and Image Classification [62.997667081978825]
本研究の目的は、コンピュータビジョン2次元オブジェクト分類タスクに使用される最も一般的な機械学習およびディープラーニング技術を分析し比較することである。
まず、視覚語モデルと深部畳み込みニューラルネットワーク(DCNN)の理論的背景を示す。
次に、Bag of Visual Wordsモデル、VGG16 CNN Architectureを実装します。
論文 参考訳(メタデータ) (2022-04-11T11:34:43Z) - Improving Sample Efficiency of Value Based Models Using Attention and
Vision Transformers [52.30336730712544]
性能を犠牲にすることなくサンプル効率を向上させることを目的とした深層強化学習アーキテクチャを提案する。
状態表現の特徴マップ上の自己注意機構を変換器を用いて学習する視覚的注意モデルを提案する。
我々は,このアーキテクチャがいくつかのAtari環境におけるサンプルの複雑さを向上すると同時に,いくつかのゲームにおいて優れたパフォーマンスを実現することを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-01T19:03:03Z) - Classifying Textual Data with Pre-trained Vision Models through Transfer
Learning and Data Transformations [0.0]
我々は、ImageNetで訓練されたベンチマークビジョンモデルによって得られた知識を用いて、より小さなアーキテクチャがテキストの分類を学ぶのを助けることを提案する。
異なるドメインの分析と転送学習を行う。
この研究の主な貢献は、言語とビジョンの両方で事前訓練された大きなモデルを結びつけて、最先端の結果を得るという、新しいアプローチである。
論文 参考訳(メタデータ) (2021-06-23T15:53:38Z) - Joint Learning of Neural Transfer and Architecture Adaptation for Image
Recognition [77.95361323613147]
現在の最先端の視覚認識システムは、大規模データセット上でニューラルネットワークを事前トレーニングし、より小さなデータセットでネットワーク重みを微調整することに依存している。
本稿では,各ドメインタスクに適応したネットワークアーキテクチャの動的適応と,効率と効率の両面で重みの微調整の利点を実証する。
本手法は,ソースドメインタスクでスーパーネットトレーニングを自己教師付き学習に置き換え,下流タスクで線形評価を行うことにより,教師なしパラダイムに容易に一般化することができる。
論文 参考訳(メタデータ) (2021-03-31T08:15:17Z) - Comparative evaluation of CNN architectures for Image Caption Generation [1.2183405753834562]
2つの人気のある画像キャプチャ生成フレームワークで17種類の畳み込みニューラルネットワークを評価した。
我々は、畳み込みニューラルネットワークのモデルの複雑さをパラメータ数で測定し、オブジェクト認識タスクにおけるモデルの精度は、必ずしも画像キャプション生成タスクの機能抽出に対する効果と相関するとは限らないことを観察する。
論文 参考訳(メタデータ) (2021-02-23T05:43:54Z) - D2RL: Deep Dense Architectures in Reinforcement Learning [47.67475810050311]
コンピュータビジョンと生成モデルにおけるアーキテクチャ選択の成功からインスピレーションを得ます。
各種ロボット学習ベンチマーク環境における強化学習における深層ネットワークと高密度接続の利用について検討した。
論文 参考訳(メタデータ) (2020-10-19T01:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。