論文の概要: VideoGameBunny: Towards vision assistants for video games
- arxiv url: http://arxiv.org/abs/2407.15295v1
- Date: Sun, 21 Jul 2024 23:31:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 16:30:24.203549
- Title: VideoGameBunny: Towards vision assistants for video games
- Title(参考訳): VideoGameBunny:ビデオゲームのビジョンアシスタントを目指して
- Authors: Mohammad Reza Taesiri, Cor-Paul Bezemer,
- Abstract要約: 本稿では,BunnyをベースとしたLLaVAスタイルモデルであるVideoGameBunnyの開発について述べる。
中間チェックポイント、トレーニングログ、および413タイトルから185,259のビデオゲーム画像からなる広範なデータセットをリリースする。
実験の結果,我々の高品質なゲーム関連データにより,比較的小さなモデルが,最先端モデルであるLLaVa-1.6-34bよりも優れている可能性が示唆された。
- 参考スコア(独自算出の注目度): 4.652236080354487
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large multimodal models (LMMs) hold substantial promise across various domains, from personal assistance in daily tasks to sophisticated applications like medical diagnostics. However, their capabilities have limitations in the video game domain, such as challenges with scene understanding, hallucinations, and inaccurate descriptions of video game content, especially in open-source models. This paper describes the development of VideoGameBunny, a LLaVA-style model based on Bunny, specifically tailored for understanding images from video games. We release intermediate checkpoints, training logs, and an extensive dataset comprising 185,259 video game images from 413 titles, along with 389,565 image-instruction pairs that include image captions, question-answer pairs, and a JSON representation of 16 elements of 136,974 images. Our experiments show that our high quality game-related data has the potential to make a relatively small model outperform the much larger state-of-the-art model LLaVa-1.6-34b (which has more than 4x the number of parameters). Our study paves the way for future research in video game understanding on tasks such as playing, commentary, and debugging. Code and data are available at https://videogamebunny.github.io/
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、日々のタスクにおける個人支援から、医療診断などの高度な応用に至るまで、様々な領域で大きな約束を持っている。
しかし、それらの能力は、特にオープンソースモデルにおいて、シーン理解、幻覚、不正確なビデオゲームコンテンツの記述など、ビデオゲーム領域に制限がある。
本稿では,BunnyをベースとしたLLaVAスタイルモデルであるVideoGameBunnyの開発について述べる。
中間チェックポイント,トレーニングログ,および413タイトルから185,259のビデオゲームイメージと,イメージキャプション,質問応答ペア,136,974イメージの16要素のJSON表現を含む389,565のイメージインストラクションペアからなる広範なデータセットをリリースする。
実験の結果,我々の高品質なゲーム関連データにより,比較的小さなモデルが,より大きな最先端モデルであるLLaVa-1.6-34b(パラメータの4倍以上)より優れる可能性が示唆された。
本研究は,ゲーム理解における今後の研究の道を開くものである。
コードとデータはhttps://videogamebunny.github.io/で公開されている。
関連論文リスト
- WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - L4GM: Large 4D Gaussian Reconstruction Model [99.82220378522624]
単視点ビデオ入力からアニメーションオブジェクトを生成する最初の4次元大規模再構成モデルであるL4GMを提案する。
私たちの成功の鍵は、キュレートされたレンダリングされたアニメーションオブジェクトを含む、新しいマルチビュービデオのデータセットです。
論文 参考訳(メタデータ) (2024-06-14T17:51:18Z) - Analyzing Zero-Shot Abilities of Vision-Language Models on Video
Understanding Tasks [6.925770576386087]
本稿では,ゼロショット環境における映像理解タスクの評価において,画像テキストモデルの一般化能力について詳細に検討する。
実験の結果,映像テキストモデルでは,映像AR,ビデオRT,ビデオMCに優れた性能を示すことがわかった。
これらの結果は、コストのかかる事前学習のステップを回避しつつ、基礎的な画像テキストモデルを一連のビデオタスクに適応する利点を浮き彫りにした。
論文 参考訳(メタデータ) (2023-10-07T20:57:54Z) - Using Gameplay Videos for Detecting Issues in Video Games [14.41863992598613]
ストリーマーは、プレイ中にいくつかの問題(バグ、不具合、パフォーマンス問題など)に遭遇する可能性がある。
特定された問題はユーザのゲーム体験に悪影響を及ぼし、ゲームやプロデューサーの評判に悪影響を及ぼす可能性がある。
本稿では,ゲームプレイビデオから関連情報を自動抽出するGELIDを提案する。
論文 参考訳(メタデータ) (2023-07-27T10:16:04Z) - GOAL: A Challenging Knowledge-grounded Video Captioning Benchmark for
Real-time Soccer Commentary Generation [75.60413443783953]
我々は,KGVC(Knowledge-grounded Video Captioning)として新たなタスク設定を提案するための,8.9k以上のサッカービデオクリップ,22kの文,42kの知識トリプルのベンチマークであるGOALを提案する。
私たちのデータとコードはhttps://github.com/THU-KEG/goal.orgで公開されています。
論文 参考訳(メタデータ) (2023-03-26T08:43:36Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z) - Large Language Models are Pretty Good Zero-Shot Video Game Bug Detectors [3.39487428163997]
大規模言語モデルでは,ゲームからのイベントのテキスト記述のシーケンスにおいて,どのイベントがバギーであるかを識別できることを示す。
この結果から,ビデオゲームのバグ検出に言語モデルを用いた場合の有望な結果が得られた。
論文 参考訳(メタデータ) (2022-10-05T18:44:35Z) - WinoGAViL: Gamified Association Benchmark to Challenge
Vision-and-Language Models [91.92346150646007]
本研究では,視覚・言語関係を収集するオンラインゲームであるWinoGAViLを紹介する。
私たちはこのゲームを使って3.5Kのインスタンスを収集し、それらが人間には直感的だが最先端のAIモデルには挑戦的であることを発見した。
我々の分析とプレイヤーからのフィードバックは、収集された協会が多様な推論スキルを必要とすることを示している。
論文 参考訳(メタデータ) (2022-07-25T23:57:44Z) - CLIP meets GamePhysics: Towards bug identification in gameplay videos
using zero-shot transfer learning [4.168157981135698]
本稿では,関連するゲームプレイ映像を検索するために,英語のテキストクエリを入力として受け入れる検索手法を提案する。
われわれのアプローチは外部情報(ビデオメタデータなど)に頼らない。
我々のアプローチの例としては、ビデオゲームのバグを再現するためのゲームプレイ用ビデオ検索エンジンがある。
論文 参考訳(メタデータ) (2022-03-21T16:23:02Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。