論文の概要: From Pixels to Titles: Video Game Identification by Screenshots using
Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2311.15963v1
- Date: Mon, 27 Nov 2023 16:07:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 14:30:00.094452
- Title: From Pixels to Titles: Video Game Identification by Screenshots using
Convolutional Neural Networks
- Title(参考訳): ピクセルからタイトルへ:畳み込みニューラルネットワークを用いたスクリーンショットによるビデオゲームの識別
- Authors: Fabricio Breve
- Abstract要約: 本稿では,5つの畳み込みニューラルネットワーク(CNN)アーキテクチャを用いて,単一スクリーンショットによるビデオゲームの識別について検討する。
CNNは自動で画像の特徴を抽出し、追加機能なしでスクリーンショットからゲームタイトルの識別を可能にする。
ImageNetの事前トレーニングされた重量を使って、EfficientNetB3は最高平均精度(74.51%)を達成し、DenseNet169は22のシステムのうち14で優れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates video game identification through single screenshots,
utilizing five convolutional neural network (CNN) architectures (MobileNet,
DenseNet, EfficientNetB0, EfficientNetB2, and EfficientNetB3) across 22 home
console systems, spanning from Atari 2600 to PlayStation 5. Confirming the
hypothesis, CNNs autonomously extract image features, enabling the
identification of game titles from screenshots without additional features.
Using ImageNet pre-trained weights, EfficientNetB3 achieves the highest average
accuracy (74.51%), while DenseNet169 excels in 14 of the 22 systems. Employing
alternative initial weights from another screenshots dataset boosts accuracy
for EfficientNetB2 and EfficientNetB3, with the latter reaching a peak accuracy
of 76.36% and demonstrating reduced convergence epochs from 23.7 to 20.5 on
average. Overall, the combination of optimal architecture and weights attains
77.67% accuracy, primarily led by EfficientNetB3 in 19 systems. These findings
underscore the efficacy of CNNs in video game identification through
screenshots.
- Abstract(参考訳): 本稿では,Atari 2600からPlayStation 5にまたがる22のホームコンソールシステムにおいて,CNNアーキテクチャ(MobileNet,DenseNet,EfficientNetB0,EfficientNetB2,EfficientNetB3)を用いて,シングルスクリーンショットによるゲーム識別について検討する。
仮説を確認することで、CNNは自動で画像の特徴を抽出し、追加機能なしでスクリーンショットからゲームタイトルを識別できる。
ImageNetの事前トレーニングされた重量を用いて、EfficientNetB3は最高平均精度(74.51%)を達成する。
他のスクリーンショットからの代替的な初期重みを用いてデータセットは efficientnetb2 と efficientnetb3 の精度を高め、後者は 76.36% のピークに達した。
全体的なアーキテクチャと重みの組み合わせは77.67%に達し、主に19のシステムでEfficientNetB3がリードしている。
これらの結果は,スクリーンショットによるゲーム識別におけるCNNの有効性を裏付けるものである。
関連論文リスト
- MogaNet: Multi-order Gated Aggregation Network [64.16774341908365]
我々は,識別的視覚的表現学習のために,MogaNetと呼ばれる現代ConvNetの新たなファミリーを提案する。
MogaNetは概念的に単純だが効果的な畳み込みをカプセル化し、集約をコンパクトモジュールに集約する。
MogaNetは、ImageNetの最先端のViTやConvNetと比較して、優れたスケーラビリティ、パラメータの大幅な効率、競争性能を示している。
論文 参考訳(メタデータ) (2022-11-07T04:31:17Z) - Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs [148.0476219278875]
現代畳み込みニューラルネットワーク(CNN)における大規模カーネル設計の再検討
本稿では、視覚変換器(ViT)の最近の進歩に触発されて、小さなカーネルのスタックではなく、少数の大きな畳み込みカーネルを使うことが、より強力なパラダイムであることを実証する。
本稿では,カーネルサイズが31x31の純粋なCNNアーキテクチャであるRepLKNetを提案する。
論文 参考訳(メタデータ) (2022-03-13T17:22:44Z) - CoAtNet: Marrying Convolution and Attention for All Data Sizes [93.93381069705546]
トランスフォーマーはモデル容量が大きくなる傾向にあるが、正しい帰納バイアスの欠如により、畳み込みネットワークよりも一般化が悪くなる可能性がある。
2つの重要な洞察から構築されたハイブリッドモデルのファミリーであるCoAtNetsを紹介します。
実験により、我々のCoAtNetsはリソース制約の異なる最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-06-09T04:35:31Z) - ConTNet: Why not use convolution and transformer at the same time? [28.343371000297747]
トランスとConvNetアーキテクチャを組み合わせて、大きなレセプティブフィールドを提供するConTNetを提案します。
画像分類と下流タスクにおけるその優位性と有効性を提示する。
ConTNetがCVタスクの有用なバックボーンとなり、モデル設計に新しいアイデアをもたらすことを期待しています。
論文 参考訳(メタデータ) (2021-04-27T22:29:55Z) - Training EfficientNets at Supercomputer Scale: 83% ImageNet Top-1
Accuracy in One Hour [38.89981855438478]
本稿では,2048コアのTPU-v3ポッド上でのEfficientNetsのトレーニングをスケールアップする手法を提案する。
ImageNet上でEfficientNetを1時間4分で83%の精度でトレーニングすることができます。
論文 参考訳(メタデータ) (2020-10-30T19:27:11Z) - Model Rubik's Cube: Twisting Resolution, Depth and Width for TinyNets [65.28292822614418]
解像度、深さ、幅を同時に拡大する巨大な公式は、ニューラルネットワークのためのルービックキューブを提供する。
本稿では,最小モデルサイズと計算コストで深層ニューラルネットワークを得るためのツイストルールを検討することを目的とする。
論文 参考訳(メタデータ) (2020-10-28T08:49:45Z) - DyNet: Dynamic Convolution for Accelerating Convolutional Neural
Networks [16.169176006544436]
本稿では,画像内容に基づいてコンボリューションカーネルを適応的に生成する動的畳み込み手法を提案する。
MobileNetV3-Small/Largeアーキテクチャに基づいて、DyNetはImageNet上で70.3/77.1%のTop-1精度を達成し、2.9/1.9%改善した。
論文 参考訳(メタデータ) (2020-04-22T16:58:05Z) - Improved Residual Networks for Image and Video Recognition [98.10703825716142]
ResNets(Residual Networks)は、CNN(Convolutional Neural Network)アーキテクチャの強力なタイプである。
ベースライン上での精度と学習収束性を一貫した改善を示す。
提案手法では,高度に深いネットワークをトレーニングできるが,ベースラインは厳密な最適化問題を示す。
論文 参考訳(メタデータ) (2020-04-10T11:09:50Z) - TResNet: High Performance GPU-Dedicated Architecture [6.654949459658242]
近年開発された多くのディープラーニングモデルは、FLOPS数が少なく、ResNet50よりもImageNetの精度が高い。
本稿では、GPUトレーニングと推論効率を維持しながら、ニューラルネットワークの精度を高めることを目的としたアーキテクチャ修正のシリーズを紹介する。
我々は、従来のConvNetよりも精度と効率を向上する、TResNetと呼ばれるGPU専用モデルの新しいファミリーを紹介する。
論文 参考訳(メタデータ) (2020-03-30T17:04:47Z) - Fixing the train-test resolution discrepancy: FixEfficientNet [98.64315617109344]
本稿では,複数のトレーニング手順を用いて,効率的なNet画像分類器の性能解析を行う。
FixEfficientNetと呼ばれる結果のネットワークは、同じ数のパラメータで初期アーキテクチャを著しく上回る。
論文 参考訳(メタデータ) (2020-03-18T14:22:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。