論文の概要: From Pixels to Titles: Video Game Identification by Screenshots using Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2311.15963v3
- Date: Wed, 08 Jan 2025 13:45:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:54:24.040247
- Title: From Pixels to Titles: Video Game Identification by Screenshots using Convolutional Neural Networks
- Title(参考訳): 画像からタイトルへ:畳み込みニューラルネットワークを用いたスクリーンショットによるゲーム同定
- Authors: Fabricio Breve,
- Abstract要約: 本稿では,10の畳み込みニューラルネットワーク(CNN)アーキテクチャを用いて,単一スクリーンショットによるビデオゲームの識別について検討する。
ImageNet事前訓練重量を初期重量として用いて、EfficientNetV2Sは最も高い平均精度(77.44%)を達成する。
DenseNet201は4つのシステムで最高であり、EfficientNetB3は残りの2つのシステムで最高である。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper investigates video game identification through single screenshots, utilizing ten convolutional neural network (CNN) architectures (VGG16, ResNet50, ResNet152, MobileNet, DenseNet169, DenseNet201, EfficientNetB0, EfficientNetB2, EfficientNetB3, and EfficientNetV2S) and three transformers architectures (ViT-B16, ViT-L32, and SwinT) across 22 home console systems, spanning from Atari 2600 to PlayStation 5, totalling 8,796 games and 170,881 screenshots. Except for VGG16, all CNNs outperformed the transformers in this task. Using ImageNet pre-trained weights as initial weights, EfficientNetV2S achieves the highest average accuracy (77.44%) and the highest accuracy in 16 of the 22 systems. DenseNet201 is the best in four systems and EfficientNetB3 is the best in the remaining two systems. Employing alternative initial weights fine-tuned in an arcade screenshots dataset boosts accuracy for EfficientNet architectures, with the EfficientNetV2S reaching a peak accuracy of 77.63% and demonstrating reduced convergence epochs from 26.9 to 24.5 on average. Overall, the combination of optimal architecture and weights attains 78.79% accuracy, primarily led by EfficientNetV2S in 15 systems. These findings underscore the efficacy of CNNs in video game identification through screenshots.
- Abstract(参考訳): 本稿では,Atari 2600からPlayStation 5,8,796ゲーム,170,881スクリーンショットの計22種類のホームコンソールシステムにまたがる,10の畳み込みニューラルネットワーク(VGG16, ResNet50, ResNet152, MobileNet, DenseNet169, DenseNet201, EfficientNetB0, EfficientNetB2, EfficientNetB3, EfficientNetV2S)と3つのトランスフォーマアーキテクチャ(ViT-B16, ViT-L32, SwinT)を用いて,シングルスクリーンショットによるビデオゲームの識別について検討する。
VGG16を除いて、全てのCNNは、このタスクにおいてトランスフォーマーよりも優れていた。
ImageNetの事前訓練重量を初期重量として用いると、EfficientNetV2Sは平均精度77.44%、22システム中16システムで最高精度を達成している。
DenseNet201は4つのシステムで最高であり、EfficientNetB3は残りの2つのシステムで最高である。
アーケードのスクリーンショットデータセットで微調整された別の初期重量を使用すると、効率の良いNetV2Sは77.63%のピーク精度に達し、平均26.9から24.5までの収束エポックを減少させる。
全体として、最適アーキテクチャと重みの組み合わせは78.79%の精度に達し、主に15のシステムでEfficientNetV2Sが導いた。
これらの結果は、スクリーンショットによるビデオゲームの識別におけるCNNの有効性を裏付けるものである。
関連論文リスト
- RedBit: An End-to-End Flexible Framework for Evaluating the Accuracy of
Quantized CNNs [9.807687918954763]
畳み込みニューラルネットワーク(CNN)は、画像処理、分類、セグメンテーションタスクのためのディープニューラルネットワークの標準クラスとなっている。
RedBitは、透過的で使いやすいインターフェースを提供するオープンソースのフレームワークで、異なるアルゴリズムの有効性をネットワークの精度で評価する。
論文 参考訳(メタデータ) (2023-01-15T21:27:35Z) - MogaNet: Multi-order Gated Aggregation Network [64.16774341908365]
我々は,識別的視覚的表現学習のために,MogaNetと呼ばれる現代ConvNetの新たなファミリーを提案する。
MogaNetは概念的に単純だが効果的な畳み込みをカプセル化し、集約をコンパクトモジュールに集約する。
MogaNetは、ImageNetの最先端のViTやConvNetと比較して、優れたスケーラビリティ、パラメータの大幅な効率、競争性能を示している。
論文 参考訳(メタデータ) (2022-11-07T04:31:17Z) - Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs [148.0476219278875]
現代畳み込みニューラルネットワーク(CNN)における大規模カーネル設計の再検討
本稿では、視覚変換器(ViT)の最近の進歩に触発されて、小さなカーネルのスタックではなく、少数の大きな畳み込みカーネルを使うことが、より強力なパラダイムであることを実証する。
本稿では,カーネルサイズが31x31の純粋なCNNアーキテクチャであるRepLKNetを提案する。
論文 参考訳(メタデータ) (2022-03-13T17:22:44Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - Training EfficientNets at Supercomputer Scale: 83% ImageNet Top-1
Accuracy in One Hour [38.89981855438478]
本稿では,2048コアのTPU-v3ポッド上でのEfficientNetsのトレーニングをスケールアップする手法を提案する。
ImageNet上でEfficientNetを1時間4分で83%の精度でトレーニングすることができます。
論文 参考訳(メタデータ) (2020-10-30T19:27:11Z) - Model Rubik's Cube: Twisting Resolution, Depth and Width for TinyNets [65.28292822614418]
解像度、深さ、幅を同時に拡大する巨大な公式は、ニューラルネットワークのためのルービックキューブを提供する。
本稿では,最小モデルサイズと計算コストで深層ニューラルネットワークを得るためのツイストルールを検討することを目的とする。
論文 参考訳(メタデータ) (2020-10-28T08:49:45Z) - Improved Residual Networks for Image and Video Recognition [98.10703825716142]
ResNets(Residual Networks)は、CNN(Convolutional Neural Network)アーキテクチャの強力なタイプである。
ベースライン上での精度と学習収束性を一貫した改善を示す。
提案手法では,高度に深いネットワークをトレーニングできるが,ベースラインは厳密な最適化問題を示す。
論文 参考訳(メタデータ) (2020-04-10T11:09:50Z) - TResNet: High Performance GPU-Dedicated Architecture [6.654949459658242]
近年開発された多くのディープラーニングモデルは、FLOPS数が少なく、ResNet50よりもImageNetの精度が高い。
本稿では、GPUトレーニングと推論効率を維持しながら、ニューラルネットワークの精度を高めることを目的としたアーキテクチャ修正のシリーズを紹介する。
我々は、従来のConvNetよりも精度と効率を向上する、TResNetと呼ばれるGPU専用モデルの新しいファミリーを紹介する。
論文 参考訳(メタデータ) (2020-03-30T17:04:47Z) - Fixing the train-test resolution discrepancy: FixEfficientNet [98.64315617109344]
本稿では,複数のトレーニング手順を用いて,効率的なNet画像分類器の性能解析を行う。
FixEfficientNetと呼ばれる結果のネットワークは、同じ数のパラメータで初期アーキテクチャを著しく上回る。
論文 参考訳(メタデータ) (2020-03-18T14:22:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。