論文の概要: AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction
- arxiv url: http://arxiv.org/abs/2504.01014v1
- Date: Tue, 01 Apr 2025 17:57:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 15:43:09.233699
- Title: AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction
- Title(参考訳): AnimeGamer: 次のゲーム状態予測を備えた無限のアニメライフシミュレーション
- Authors: Junhao Cheng, Yuying Ge, Yixiao Ge, Jing Liao, Ying Shan,
- Abstract要約: 近年,無限アニメライフシミュレーションの先駆的なアプローチとして,多ターンテキスト対話を画像生成のための言語命令に変換するために,大規模言語モデル(LLM)が採用されている。
本稿では,MLLM(Multimodal Large Language Models)をベースとしたAnimeGamerを提案する。
本稿では,アニメーション映像を高品質なビデオクリップにデコード可能な,アクション対応のマルチモーダル表現を提案する。
- 参考スコア(独自算出の注目度): 58.240114139186275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in image and video synthesis have opened up new promise in generative games. One particularly intriguing application is transforming characters from anime films into interactive, playable entities. This allows players to immerse themselves in the dynamic anime world as their favorite characters for life simulation through language instructions. Such games are defined as infinite game since they eliminate predetermined boundaries and fixed gameplay rules, where players can interact with the game world through open-ended language and experience ever-evolving storylines and environments. Recently, a pioneering approach for infinite anime life simulation employs large language models (LLMs) to translate multi-turn text dialogues into language instructions for image generation. However, it neglects historical visual context, leading to inconsistent gameplay. Furthermore, it only generates static images, failing to incorporate the dynamics necessary for an engaging gaming experience. In this work, we propose AnimeGamer, which is built upon Multimodal Large Language Models (MLLMs) to generate each game state, including dynamic animation shots that depict character movements and updates to character states, as illustrated in Figure 1. We introduce novel action-aware multimodal representations to represent animation shots, which can be decoded into high-quality video clips using a video diffusion model. By taking historical animation shot representations as context and predicting subsequent representations, AnimeGamer can generate games with contextual consistency and satisfactory dynamics. Extensive evaluations using both automated metrics and human evaluations demonstrate that AnimeGamer outperforms existing methods in various aspects of the gaming experience. Codes and checkpoints are available at https://github.com/TencentARC/AnimeGamer.
- Abstract(参考訳): 近年の映像合成と映像合成の進歩により、生成ゲームにおける新たな約束が開けている。
特に興味深い応用の1つは、キャラクターをアニメ映画からインタラクティブでプレイ可能な実体に変換することである。
これによりプレイヤーは動的アニメの世界に自分の好きなキャラクターとして没頭し、言語による人生シミュレーションを行うことができる。
このようなゲームは、所定の境界と固定されたゲームプレイルールを排除し、プレイヤーはオープンエンドの言語でゲームの世界と対話し、絶え間なく進化するストーリーラインと環境を体験することができるため、無限のゲームとして定義される。
近年,無限アニメライフシミュレーションの先駆的なアプローチとして,多ターンテキスト対話を画像生成のための言語命令に変換するために,大規模言語モデル(LLM)が採用されている。
しかし、これは歴史的視覚的文脈を無視し、矛盾したゲームプレイへと繋がる。
さらに、静的な画像しか生成せず、エンゲージメントゲーム体験に必要なダイナミクスを組み込むことができない。
本研究では,マルチモーダル大言語モデル(MLLM)をベースとしたAnimeGamerを提案する。
動画拡散モデルを用いて高品質なビデオクリップにデコードできるアニメーションショットを表現するために,新しいアクション対応マルチモーダル表現を導入する。
歴史的アニメーションショット表現をコンテキストとして、その後の表現を予測することで、AnimeGamerはコンテキスト整合性と満足度の高いダイナミックスを備えたゲームを生成することができる。
自動測定と人的評価の両方を用いた大規模な評価は、AnimeGamerがゲーム体験の様々な面で既存の手法より優れていることを示している。
コードとチェックポイントはhttps://github.com/TencentARC/AnimeGamer.comで入手できる。
関連論文リスト
- MoCha: Towards Movie-Grade Talking Character Synthesis [62.007000023747445]
本研究では,音声とテキストから直接話し言葉のアニメーションを生成するための,より現実的なタスクであるトーキングキャラクタを紹介する。
トーキング・キャラクタとは違い、トーキング・キャラクタは顔領域を超えて1つ以上のキャラクターの完全な肖像画を作成することを目的としている。
そこで本研究では,まず,話し言葉を生成するMoChaを提案する。
論文 参考訳(メタデータ) (2025-03-30T04:22:09Z) - Unbounded: A Generative Infinite Game of Character Life Simulation [68.37260000219479]
生成モデルを用いて,有限なハードコードシステムの境界を超越したゲームである生成無限ゲームの概念を導入する。
我々は、生成AIの最近の進歩を活用して、生成モデルに完全にカプセル化されたキャラクターライフシミュレーションゲームUnboundedを作成する。
論文 参考訳(メタデータ) (2024-10-24T17:59:31Z) - GAVEL: Generating Games Via Evolution and Language Models [40.896938709468465]
我々は,Ludiiゲーム記述言語における新規ゲームの生成について検討する。
我々は、コードとして表現されたゲームやメカニクスをインテリジェントに変更し、再結合するモデルを訓練する。
生成されたゲームのサンプルは、Ludiiポータルからオンラインでプレイすることができる。
論文 参考訳(メタデータ) (2024-07-12T16:08:44Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z) - Language-Guided Face Animation by Recurrent StyleGAN-based Generator [87.56260982475564]
本研究では,静的顔画像のアニメーション化を目的とした,言語指導型顔画像の新しいタスクについて検討する。
本稿では,言語から一連の意味情報と動作情報を抽出し,学習済みのStyleGANに視覚情報と共に供給し,高品質なフレームを生成するための繰り返し動作生成手法を提案する。
論文 参考訳(メタデータ) (2022-08-11T02:57:30Z) - Triangular Character Animation Sampling with Motion, Emotion, and
Relation [78.80083186208712]
本稿では,キャラクターの身体の動き,表情,社会的関係を関連づけることで,アニメーションのサンプリングと合成を行う新しい枠組みを提案する。
本手法は,3次元キャラクタアニメーションの自動生成,非プレーヤキャラクタ(NPC)間のインタラクションの合成,バーチャルリアリティ(VR)におけるマシン感情インテリジェンスの向上を支援するアニメーターを提供する。
論文 参考訳(メタデータ) (2022-03-09T18:19:03Z) - Keep CALM and Explore: Language Models for Action Generation in
Text-based Games [27.00685301984832]
本研究では,各ゲーム状態におけるアクション候補のコンパクトなセットを生成するために,文脈行動言語モデル(CALM)を提案する。
我々はCALMと強化学習エージェントを組み合わせることで、生成したアクション候補を再ランクし、ゲーム内報酬を最大化する。
論文 参考訳(メタデータ) (2020-10-06T17:36:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。