論文の概要: GameTileNet: A Semantic Dataset for Low-Resolution Game Art in Procedural Content Generation
- arxiv url: http://arxiv.org/abs/2507.02941v1
- Date: Fri, 27 Jun 2025 20:50:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-13 12:05:57.544044
- Title: GameTileNet: A Semantic Dataset for Low-Resolution Game Art in Procedural Content Generation
- Title(参考訳): GameTileNet: 手続き型コンテンツ生成における低解像度ゲームアートのセマンティックデータセット
- Authors: Yi-Chun Chen, Arnav Jhala,
- Abstract要約: GameTileNetは、低解像度デジタルゲームアートのセマンティックラベルを提供するために設計されたデータセットである。
このデータセットは、低解像度タイルベースのゲームアートにおいて、オブジェクト検出のためのパイプラインを導入する。
- 参考スコア(独自算出の注目度): 1.1181151748260076
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: GameTileNet is a dataset designed to provide semantic labels for low-resolution digital game art, advancing procedural content generation (PCG) and related AI research as a vision-language alignment task. Large Language Models (LLMs) and image-generative AI models have enabled indie developers to create visual assets, such as sprites, for game interactions. However, generating visuals that align with game narratives remains challenging due to inconsistent AI outputs, requiring manual adjustments by human artists. The diversity of visual representations in automatically generated game content is also limited because of the imbalance in distributions across styles for training data. GameTileNet addresses this by collecting artist-created game tiles from OpenGameArt.org under Creative Commons licenses and providing semantic annotations to support narrative-driven content generation. The dataset introduces a pipeline for object detection in low-resolution tile-based game art (e.g., 32x32 pixels) and annotates semantics, connectivity, and object classifications. GameTileNet is a valuable resource for improving PCG methods, supporting narrative-rich game content, and establishing a baseline for object detection in low-resolution, non-photorealistic images. TL;DR: GameTileNet is a semantic dataset of low-resolution game tiles designed to support narrative-driven procedural content generation through visual-language alignment.
- Abstract(参考訳): GameTileNetは、低解像度のデジタルゲームアートにセマンティックラベルを提供し、プロシージャコンテンツ生成(PCG)と関連するAI研究を視覚言語アライメントタスクとして提供するために設計されたデータセットである。
大規模言語モデル(LLM)と画像生成AIモデルにより、インディー開発者はゲームインタラクションのためのスプライトのようなビジュアルアセットを作成できるようになった。
しかし、AI出力の不整合のため、人間の手作業による調整を必要とするため、ゲームナラティブと整合したビジュアルを生成することは依然として困難である。
自動生成ゲームコンテンツにおける視覚表現の多様性も、トレーニングデータのためのスタイル間の分布の不均衡のために制限されている。
GameTileNetは、Creative Commonsライセンスの下でOpenGameArt.orgからアーティストが作ったゲームタイルを収集し、物語駆動コンテンツ生成をサポートするセマンティックアノテーションを提供することによってこの問題に対処する。
このデータセットは、低解像度タイルベースのゲームアート(例えば32x32ピクセル)におけるオブジェクト検出のためのパイプラインを導入し、セマンティクス、接続性、オブジェクト分類を注釈する。
GameTileNetは、PCG法の改善、物語に富んだゲームコンテンツのサポート、低解像度の非フォトリアリスティック画像におけるオブジェクト検出のベースラインを確立するための貴重なリソースである。
TL;DR: GameTileNetは、ビジュアル言語アライメントによる物語駆動の手続き的コンテンツ生成をサポートするために設計された、低解像度のゲームタイルのセマンティックデータセットである。
関連論文リスト
- Mining Contextualized Visual Associations from Images for Creativity Understanding [11.071707041316992]
ラベルのないデータセットにスケール可能な画像中の有意な視覚要素の文脈的関連を抽出する手法を提案する。
我々は,MSCOCOの画像に対して,新しい視覚関連データセットと1.7mのクリエイティビティキャプションを作成する。
論文 参考訳(メタデータ) (2025-07-25T03:15:16Z) - Semantically-Aware Game Image Quality Assessment [3.9367205985007656]
既存の非参照画像とビデオ品質評価法(NR-IQA/VQA)はゲーム環境に一般化できない。
本研究では,ゲームに適した NR-IQA モデルを提案する。
このモデルは、ゲーム固有の歪みを検出し定量化するために、知識蒸留されたゲーム歪み特徴抽出器を使用する。
論文 参考訳(メタデータ) (2025-05-16T22:12:19Z) - Unlocking Comics: The AI4VA Dataset for Visual Understanding [62.345344799258804]
本稿では,1950年代のフレンチ・ベルジアン漫画に,深度推定,セマンティックセグメンテーション,サリエンシ検出,キャラクタ識別などのタスクを注記した新しいデータセットを提案する。
2つの異なる一貫したスタイルで構成され、自然画像から得られたオブジェクトの概念とラベルを取り入れている。
このような多様な情報を含むことで、このデータセットは計算の創造性を約束するだけでなく、アートのデジタル化やストーリーテリングの革新のための道も提供します。
論文 参考訳(メタデータ) (2024-10-27T14:27:05Z) - Salient Object-Aware Background Generation using Text-Guided Diffusion Models [4.747826159446815]
本稿では, 安定拡散と制御ネットアーキテクチャを用いて, 健全なオブジェクト出力処理にインペイント拡散モデルを適用するモデルを提案する。
提案手法は,複数のデータセットにまたがる標準的な視覚的メトリクスの劣化を伴わずに,オブジェクトの展開を平均3.6倍に削減する。
論文 参考訳(メタデータ) (2024-04-15T22:13:35Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - Towards General Game Representations: Decomposing Games Pixels into
Content and Style [2.570570340104555]
ゲームのピクセル表現を学習することは、複数の下流タスクにまたがる人工知能の恩恵を受けることができる。
本稿では,コンピュータビジョンエンコーダの汎用化について検討する。
我々は、ゲームジャンルに基づく事前学習されたビジョントランスフォーマーエンコーダと分解技術を用いて、個別のコンテンツとスタイルの埋め込みを得る。
論文 参考訳(メタデータ) (2023-07-20T17:53:04Z) - CLIP-Count: Towards Text-Guided Zero-Shot Object Counting [32.07271723717184]
オープン語彙オブジェクトの密度マップをゼロショットで推定する,最初のエンドツーエンドパイプラインであるCLIP-Countを提案する。
テキスト埋め込みを濃密な視覚特徴と整合させるため、我々は、密集した予測のための情報的パッチレベルの視覚表現を学習するために、モデルを誘導するパッチテキストコントラスト損失を導入する。
本手法は,対象物に対する高品質な密度マップを効果的に生成する。
論文 参考訳(メタデータ) (2023-05-12T08:19:39Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - HandsOff: Labeled Dataset Generation With No Additional Human
Annotations [13.11411442720668]
本稿では,任意の数の合成画像と対応するラベルを生成する技術であるHandsOffフレームワークを紹介する。
本フレームワークは,GANインバージョンフィールドとデータセット生成を統一することにより,先行作業の現実的な欠点を回避する。
顔、車、フルボディの人間のポーズ、都市運転シーンなど、複数の挑戦的な領域において、リッチなピクセルワイズラベルを持つデータセットを生成します。
論文 参考訳(メタデータ) (2022-12-24T03:37:02Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。