論文の概要: From Pixels to Titles: Video Game Identification by Screenshots using Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2311.15963v2
- Date: Mon, 6 May 2024 19:41:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 20:03:52.737902
- Title: From Pixels to Titles: Video Game Identification by Screenshots using Convolutional Neural Networks
- Title(参考訳): 画像からタイトルへ:畳み込みニューラルネットワークを用いたスクリーンショットによるゲーム同定
- Authors: Fabricio Breve,
- Abstract要約: 本稿では,単一スクリーンショットによるビデオゲームの識別について検討する。
22のホームコンソールシステムにまたがる5つの畳み込みニューラルネットワーク(CNN)アーキテクチャを使用する。
CNNは自動で画像の特徴を抽出し、追加機能なしでスクリーンショットからゲームタイトルの識別を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates video game identification through single screenshots, utilizing five convolutional neural network (CNN) architectures (MobileNet, DenseNet, EfficientNetB0, EfficientNetB2, and EfficientNetB3) across 22 home console systems, spanning from Atari 2600 to PlayStation 5, totalling 8,796 games and 170,881 screenshots. Confirming the hypothesis, CNNs autonomously extract image features, enabling the identification of game titles from screenshots without additional features. Using ImageNet pre-trained weights as initial weights, EfficientNetB3 achieves the highest average accuracy (74.51%), while DenseNet169 excels in 14 of the 22 systems. Employing alternative initial weights trained in an arcade screenshots dataset boosts accuracy for EfficientNetB2 and EfficientNetB3, with the latter reaching a peak accuracy of 76.36% and demonstrating reduced convergence epochs from 23.7 to 20.5 on average. Overall, the combination of optimal architecture and weights attains 77.67% accuracy, primarily led by EfficientNetB3 in 19 systems. These findings underscore the efficacy of CNNs in video game identification through screenshots.
- Abstract(参考訳): 本稿では,Atari 2600からPlayStation 5にまたがる22のホームコンソールシステムにおいて,5つの畳み込みニューラルネットワーク(MobileNet,DenseNet,EfficientNetB0,EfficientNetB2,EfficientNetB3)を用いて,シングルスクリーンショットによるビデオゲームの識別について検討する。
仮説を確認することで、CNNは自動で画像の特徴を抽出し、追加機能なしでスクリーンショットからゲームタイトルを識別できる。
ImageNetの事前学習重量を初期重量として用いて、EfficientNetB3は最高平均精度(74.51%)を達成し、DenseNet169は22のシステムのうち14で優れている。
アーケードスクリーンショットデータセットでトレーニングされた別の初期重量を用いることで、EfficientNetB2とEfficientNetB3の精度が向上し、後者は76.36%に達した。
全体として、最適アーキテクチャと重みの組み合わせは77.67%の精度に達し、主に19のシステムでEfficientNetB3がリードしている。
これらの結果は、スクリーンショットによるビデオゲームの識別におけるCNNの有効性を裏付けるものである。
関連論文リスト
- RedBit: An End-to-End Flexible Framework for Evaluating the Accuracy of
Quantized CNNs [9.807687918954763]
畳み込みニューラルネットワーク(CNN)は、画像処理、分類、セグメンテーションタスクのためのディープニューラルネットワークの標準クラスとなっている。
RedBitは、透過的で使いやすいインターフェースを提供するオープンソースのフレームワークで、異なるアルゴリズムの有効性をネットワークの精度で評価する。
論文 参考訳(メタデータ) (2023-01-15T21:27:35Z) - MogaNet: Multi-order Gated Aggregation Network [64.16774341908365]
我々は,識別的視覚的表現学習のために,MogaNetと呼ばれる現代ConvNetの新たなファミリーを提案する。
MogaNetは概念的に単純だが効果的な畳み込みをカプセル化し、集約をコンパクトモジュールに集約する。
MogaNetは、ImageNetの最先端のViTやConvNetと比較して、優れたスケーラビリティ、パラメータの大幅な効率、競争性能を示している。
論文 参考訳(メタデータ) (2022-11-07T04:31:17Z) - Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs [148.0476219278875]
現代畳み込みニューラルネットワーク(CNN)における大規模カーネル設計の再検討
本稿では、視覚変換器(ViT)の最近の進歩に触発されて、小さなカーネルのスタックではなく、少数の大きな畳み込みカーネルを使うことが、より強力なパラダイムであることを実証する。
本稿では,カーネルサイズが31x31の純粋なCNNアーキテクチャであるRepLKNetを提案する。
論文 参考訳(メタデータ) (2022-03-13T17:22:44Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - Training EfficientNets at Supercomputer Scale: 83% ImageNet Top-1
Accuracy in One Hour [38.89981855438478]
本稿では,2048コアのTPU-v3ポッド上でのEfficientNetsのトレーニングをスケールアップする手法を提案する。
ImageNet上でEfficientNetを1時間4分で83%の精度でトレーニングすることができます。
論文 参考訳(メタデータ) (2020-10-30T19:27:11Z) - Model Rubik's Cube: Twisting Resolution, Depth and Width for TinyNets [65.28292822614418]
解像度、深さ、幅を同時に拡大する巨大な公式は、ニューラルネットワークのためのルービックキューブを提供する。
本稿では,最小モデルサイズと計算コストで深層ニューラルネットワークを得るためのツイストルールを検討することを目的とする。
論文 参考訳(メタデータ) (2020-10-28T08:49:45Z) - Improved Residual Networks for Image and Video Recognition [98.10703825716142]
ResNets(Residual Networks)は、CNN(Convolutional Neural Network)アーキテクチャの強力なタイプである。
ベースライン上での精度と学習収束性を一貫した改善を示す。
提案手法では,高度に深いネットワークをトレーニングできるが,ベースラインは厳密な最適化問題を示す。
論文 参考訳(メタデータ) (2020-04-10T11:09:50Z) - TResNet: High Performance GPU-Dedicated Architecture [6.654949459658242]
近年開発された多くのディープラーニングモデルは、FLOPS数が少なく、ResNet50よりもImageNetの精度が高い。
本稿では、GPUトレーニングと推論効率を維持しながら、ニューラルネットワークの精度を高めることを目的としたアーキテクチャ修正のシリーズを紹介する。
我々は、従来のConvNetよりも精度と効率を向上する、TResNetと呼ばれるGPU専用モデルの新しいファミリーを紹介する。
論文 参考訳(メタデータ) (2020-03-30T17:04:47Z) - Fixing the train-test resolution discrepancy: FixEfficientNet [98.64315617109344]
本稿では,複数のトレーニング手順を用いて,効率的なNet画像分類器の性能解析を行う。
FixEfficientNetと呼ばれる結果のネットワークは、同じ数のパラメータで初期アーキテクチャを著しく上回る。
論文 参考訳(メタデータ) (2020-03-18T14:22:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。