論文の概要: Deep learning for video game genre classification
- arxiv url: http://arxiv.org/abs/2011.12143v1
- Date: Sat, 21 Nov 2020 22:31:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 22:57:30.309239
- Title: Deep learning for video game genre classification
- Title(参考訳): ビデオゲームジャンル分類のための深層学習
- Authors: Yuhang Jiang, Lukun Zheng
- Abstract要約: 本稿では,この問題を解決するためのマルチモーダルディープラーニングフレームワークを提案する。
我々は、画像、記述テキスト、タイトルテキスト、ジャンル情報を含む21のジャンルから5万のビデオゲームからなる大規模なデータセットをコンパイルする。
その結果、マルチモーダルフレームワークは現在の最先端の画像ベースモデルやテキストベースモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 2.66512000865131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video game genre classification based on its cover and textual description
would be utterly beneficial to many modern identification, collocation, and
retrieval systems. At the same time, it is also an extremely challenging task
due to the following reasons: First, there exists a wide variety of video game
genres, many of which are not concretely defined. Second, video game covers
vary in many different ways such as colors, styles, textual information, etc,
even for games of the same genre. Third, cover designs and textual descriptions
may vary due to many external factors such as country, culture, target reader
populations, etc. With the growing competitiveness in the video game industry,
the cover designers and typographers push the cover designs to its limit in the
hope of attracting sales. The computer-based automatic video game genre
classification systems become a particularly exciting research topic in recent
years. In this paper, we propose a multi-modal deep learning framework to solve
this problem. The contribution of this paper is four-fold. First, we compiles a
large dataset consisting of 50,000 video games from 21 genres made of cover
images, description text, and title text and the genre information. Second,
image-based and text-based, state-of-the-art models are evaluated thoroughly
for the task of genre classification for video games. Third, we developed an
efficient and salable multi-modal framework based on both images and texts.
Fourth, a thorough analysis of the experimental results is given and future
works to improve the performance is suggested. The results show that the
multi-modal framework outperforms the current state-of-the-art image-based or
text-based models. Several challenges are outlined for this task. More efforts
and resources are needed for this classification task in order to reach a
satisfactory level.
- Abstract(参考訳): カバーとテキストの記述に基づくゲームジャンルの分類は、現代の多くの識別、コロケーション、検索システムにとって極めて有益である。
第一に、多種多様なビデオゲームジャンルが存在し、その多くが具体的に定義されていない。
第二に、ビデオゲームのカバーは、同じジャンルのゲームであっても、色、スタイル、テキスト情報など、さまざまな方法で異なる。
第3に、カバーデザインやテキスト記述は、国、文化、対象読者など、多くの外部要因によって異なる場合がある。
ビデオゲーム業界における競争力が高まる中、カバーデザイナーやタイポグラファーは販売を誘致するためにカバーデザインを限界まで押し上げている。
近年、コンピュータベースの自動ビデオゲームジャンル分類システムが特にエキサイティングな研究テーマとなっている。
本稿では,この問題を解決するためのマルチモーダルディープラーニングフレームワークを提案する。
この論文の貢献は4つある。
まず、カバー画像、説明テキスト、タイトルテキストおよびジャンル情報からなる21のジャンルからなる5万のビデオゲームからなる大規模データセットをコンパイルする。
第2に,コンピュータゲームにおけるジャンル分類の課題に対して,画像ベース,テキストベース,最先端モデルの評価を行った。
第3に,画像とテキストの両方をベースとした効率的かつ有償なマルチモーダルフレームワークを開発した。
第4に,実験結果を徹底的に分析し,性能向上に向けた今後の課題を提案する。
その結果、マルチモーダルフレームワークは現在の最先端の画像ベースモデルやテキストベースモデルよりも優れていた。
この課題にはいくつかの課題がある。
満足のいくレベルに達するためには、この分類タスクにより多くの努力とリソースが必要です。
関連論文リスト
- StoryImager: A Unified and Efficient Framework for Coherent Story Visualization and Completion [78.1014542102578]
ストーリービジュアライゼーションは、ストーリーラインに基づいて現実的で一貫性のある画像を生成することを目的としている。
現在のモデルは、事前訓練されたテキストから画像へのモデルを自動回帰的な方法で変換することで、フレーム・バイ・フレームアーキテクチャを採用している。
双方向で統一的で効率的なフレームワーク,すなわちStoryImagerを提案する。
論文 参考訳(メタデータ) (2024-04-09T03:22:36Z) - Panel Transitions for Genre Analysis in Visual Narratives [1.320904960556043]
本稿では,漫画や漫画風のビジュアル・ナラティブに基づくジャンルのマルチモーダル分析を行うための新しいアプローチを提案する。
我々は、主観的ラベルをモデル化する際の既存の計算手法の限界と課題を強調した。
論文 参考訳(メタデータ) (2023-12-14T08:05:09Z) - Intelligent Generation of Graphical Game Assets: A Conceptual Framework
and Systematic Review of the State of the Art [1.534667887016089]
手続き的コンテンツ生成は、物語、レベル、音から木や武器まで、ゲームにおける様々なタスクに適用することができる。
本稿では,ゲーム内外の幅広いアプリケーションからの研究を通じて,グラフィカルアセット生成への最先端のアプローチについて検討する。
論文 参考訳(メタデータ) (2023-11-16T18:36:16Z) - Towards General Game Representations: Decomposing Games Pixels into
Content and Style [2.570570340104555]
ゲームのピクセル表現を学習することは、複数の下流タスクにまたがる人工知能の恩恵を受けることができる。
本稿では,コンピュータビジョンエンコーダの汎用化について検討する。
我々は、ゲームジャンルに基づく事前学習されたビジョントランスフォーマーエンコーダと分解技術を用いて、個別のコンテンツとスタイルの埋め込みを得る。
論文 参考訳(メタデータ) (2023-07-20T17:53:04Z) - Vision-Language Pre-training: Basics, Recent Advances, and Future Trends [158.34830433299268]
近年,マルチモーダルインテリジェンスのための視覚言語事前学習法が開発されている。
各カテゴリについて、最先端の手法の総合的なレビューを行い、現在進行中の進歩と課題について論じる。
また,研究コミュニティにおいて,大規模基盤モデル,統合モデリング,文脈内数発の学習,知識,堅牢性,コンピュータビジョンなど,高度なトピックが積極的に検討されていることについても論じる。
論文 参考訳(メタデータ) (2022-10-17T17:11:36Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Deep multi-modal networks for book genre classification based on its
cover [0.0]
カバーベースの書籍分類問題を解決するために,マルチモーダルなディープラーニングフレームワークを提案する。
本手法では,本表紙からテキストを自動的に抽出することで,余分なモダリティを付加する。
その結果、マルチモーダル・フレームワークは現在の最先端画像ベース・モデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-11-15T23:27:43Z) - A Unified Framework for Shot Type Classification Based on Subject
Centric Lens [89.26211834443558]
主観的誘導ネットワーク(SGNet)を用いたショット型認識のための学習フレームワークを提案する。
SGNetは、ショットの主題と背景を2つのストリームに分け、それぞれがスケールとムーブメントタイプの分類のための別々のガイダンスマップとして機能する。
大規模なデータセットであるMovieShotsを構築し、7Kフィルムトレーラーから46K枚の写真と、それらのスケールとムーブメントのアノテーションを含む。
論文 参考訳(メタデータ) (2020-08-08T15:49:40Z) - Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene
Text [93.08109196909763]
我々は,新しいVQAアプローチであるMulti-Modal Graph Neural Network (MM-GNN)を提案する。
これはまず3つの部分グラフからなるグラフとして表現され、それぞれ視覚的、意味的、数値的な様相を描いている。
次に3つのアグリゲータを導入し、あるグラフから別のグラフへのメッセージ転送を誘導し、様々なモードでコンテキストを利用する。
論文 参考訳(メタデータ) (2020-03-31T05:56:59Z) - Learning Dynamic Belief Graphs to Generalize on Text-Based Games [55.59741414135887]
テキストベースのゲームをプレイするには、自然言語処理とシーケンシャルな意思決定のスキルが必要である。
本研究では,原文からエンドツーエンドに学習したグラフ構造化表現を用いて,エージェントがテキストベースのゲームでどのように計画・一般化できるかを検討する。
論文 参考訳(メタデータ) (2020-02-21T04:38:37Z) - Fine-grained Image Classification and Retrieval by Combining Visual and
Locally Pooled Textual Features [8.317191999275536]
特に、テキストの存在は、コンピュータビジョンタスクの多様性に対処するために使用されるべき強力なガイドコンテンツを提供する。
本稿では,テキスト情報と視覚的手がかりを併用した細粒度分類と画像検索の課題に対処し,両者の本質的な関係を解明する。
論文 参考訳(メタデータ) (2020-01-14T12:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。