論文の概要: Joint Level Generation and Translation Using Gameplay Videos
- arxiv url: http://arxiv.org/abs/2306.16662v1
- Date: Thu, 29 Jun 2023 03:46:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 14:45:31.785772
- Title: Joint Level Generation and Translation Using Gameplay Videos
- Title(参考訳): ゲームプレイビデオを用いたジョイントレベル生成と翻訳
- Authors: Negar Mirgati and Matthew Guzdial
- Abstract要約: 機械学習による手続き的コンテンツ生成(PCGML)は、画像やテキスト生成など他の分野と切り離す重要なハードルに直面している。
機械学習による手続き的レベルの生成には、レベル画像以外の二次的な表現が必要である。
我々は,同時翻訳と生成を同時に行うことを学ぶ,新しいマルチテールフレームワークを開発した。
- 参考スコア(独自算出の注目度): 0.9645196221785693
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Procedural Content Generation via Machine Learning (PCGML) faces a
significant hurdle that sets it apart from other fields, such as image or text
generation, which is limited annotated data. Many existing methods for
procedural level generation via machine learning require a secondary
representation besides level images. However, the current methods for obtaining
such representations are laborious and time-consuming, which contributes to
this problem. In this work, we aim to address this problem by utilizing
gameplay videos of two human-annotated games to develop a novel multi-tail
framework that learns to perform simultaneous level translation and generation.
The translation tail of our framework can convert gameplay video frames to an
equivalent secondary representation, while its generation tail can produce
novel level segments. Evaluation results and comparisons between our framework
and baselines suggest that combining the level generation and translation tasks
can lead to an overall improved performance regarding both tasks. This
represents a possible solution to limited annotated level data, and we
demonstrate the potential for future versions to generalize to unseen games.
- Abstract(参考訳): 機械学習(pcgml)による手続き的コンテンツ生成は、画像やテキスト生成など、注釈付きデータに制限のある分野とは別個の大きなハードルに直面している。
機械学習による手続き的レベルの生成には、レベル画像以外の二次表現が必要である。
しかし、このような表現を得るための現在の方法は、手間と時間を要するため、この問題に寄与する。
そこで本研究では,人間のアノテートゲーム2本のゲームプレイビデオを利用して,同時翻訳と生成を同時に行うことを学ぶ新しいマルチテイルフレームワークを開発した。
フレームワークの翻訳テールはゲームプレイビデオフレームを等価な二次表現に変換することができ、生成テールは新規なレベルセグメントを生成することができる。
フレームワークとベースラインの比較と評価結果から,レベル生成タスクと翻訳タスクを組み合わせることで,両タスクの全体的な性能向上につながる可能性が示唆された。
これはアノテートレベルデータを制限するための可能な解決策であり、将来のバージョンが目に見えないゲームに一般化する可能性を実証する。
関連論文リスト
- Plug, Play, and Fuse: Zero-Shot Joint Decoding via Word-Level Re-ranking Across Diverse Vocabularies [12.843274390224853]
マルチモーダル翻訳のような現実世界のタスクは、翻訳と画像処理の両方を扱うなど、これらの強みの組み合わせを必要とすることが多い。
新たなゼロショットアンサンブル戦略を提案し,デコードフェーズにおいて,追加のトレーニングを必要とせずに,異なるモデルの統合を可能にする。
提案手法では,単語レベルでのスコアを組み合わせ,単語がいつ完了するかをマルチモーダルで予測することで,復号中にビームを再ランクする。
論文 参考訳(メタデータ) (2024-08-21T04:20:55Z) - Masked Generative Story Transformer with Character Guidance and Caption
Augmentation [2.1392064955842023]
ストーリービジュアライゼーションは、生成した画像シーケンス内の異なるフレーム間の視覚的品質と一貫性の両方を必要とする、難しい生成的視覚タスクである。
以前のアプローチでは、イメージシーケンスの自動回帰生成を通してコンテキストを維持するために何らかのメモリメカニズムを使用していたり、文字とその背景の生成を別々にモデル化したりしていた。
我々は,過去と将来のキャプションとのクロスアテンションに頼って整合性を実現する,完全に並列なトランスフォーマーベースのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-13T13:10:20Z) - Story Visualization by Online Text Augmentation with Context Memory [64.86944645907771]
オンラインテキスト拡張による双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。
提案手法は, FID, キャラクタF1, フレーム精度, BLEU-2/3, R精度など, 様々な指標において, 芸術の状態を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-15T05:08:12Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Unsupervised Image-to-Image Translation with Generative Prior [103.54337984566877]
教師なし画像画像変換は、ペアデータなしで2つの視覚領域間の翻訳を学習することを目的としている。
本稿では,GP-UNIT(Generative Prior-guided UN Image-to-image Translation)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-07T17:59:23Z) - End-to-end Generative Pretraining for Multimodal Video Captioning [82.79187814057313]
本稿では,未学習ビデオから学習するための新しい事前学習フレームワークであるMV-GPTを提案する。
最近のビデオ言語事前学習フレームワークとは異なり、我々のフレームワークはマルチモーダルビデオエンコーダと文デコーダを共同で訓練する。
本モデルは,4つの標準ベンチマークによるマルチモーダルビデオキャプションの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-01-20T16:16:21Z) - Video Generation from Text Employing Latent Path Construction for
Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。
本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。
自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文 参考訳(メタデータ) (2021-07-29T06:28:20Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Video Game Level Repair via Mixed Integer Linear Programming [20.815591392882716]
提案フレームワークは,人為的な実例で訓練されたGAN(Generative Adversarial Network)を用いてレベルを構築し,遊び性制約のある混合整数線形プログラム(MIP)を用いてそれらを修復する。
以上の結果から,提案フレームワークは多種多様なプレイ可能なレベルを生成し,人間に許可されたレベルのオブジェクト間の空間的関係をキャプチャする。
論文 参考訳(メタデータ) (2020-10-13T18:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。