論文の概要: GlitchBench: Can large multimodal models detect video game glitches?
- arxiv url: http://arxiv.org/abs/2312.05291v1
- Date: Fri, 8 Dec 2023 18:14:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 21:48:35.028138
- Title: GlitchBench: Can large multimodal models detect video game glitches?
- Title(参考訳): glitchbench: 大規模マルチモーダルモデルはビデオゲームの不具合を検知できるのか?
- Authors: Mohammad Reza Taesiri, Tianjun Feng, Cor-Paul Bezemer, Anh Nguyen
- Abstract要約: GlitchBenchは、ビデオゲームの品質保証タスクから派生した新しいベンチマークである。
当社のベンチマークは、ビデオゲームの異常なシナリオや派手なシナリオから収集しています。
我々はGlitchBenchが最先端のLMMに新たな課題をもたらすことを示す。
- 参考スコア(独自算出の注目度): 7.447474488174504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large multimodal models (LMMs) have evolved from large language models (LLMs)
to integrate multiple input modalities, such as visual inputs. This integration
augments the capacity of LLMs for tasks requiring visual comprehension and
reasoning. However, the extent and limitations of their enhanced abilities are
not fully understood, especially when it comes to real-world tasks. To address
this gap, we introduce GlitchBench, a novel benchmark derived from video game
quality assurance tasks, to test and evaluate the reasoning capabilities of
LMMs. Our benchmark is curated from a variety of unusual and glitched scenarios
from video games and aims to challenge both the visual and linguistic reasoning
powers of LMMs in detecting and interpreting out-of-the-ordinary events. We
evaluate multiple state-of-the-art LMMs, and we show that GlitchBench presents
a new challenge for these models. Code and data are available at:
https://glitchbench.github.io/
- Abstract(参考訳): 大規模マルチモーダルモデル (LMM) は大規模言語モデル (LLM) から進化し、視覚入力などの複数の入力モダリティを統合する。
この統合により、視覚的理解と推論を必要とするタスクに対するLLMの容量が増大する。
しかし、それらの強化能力の程度と限界は、特に現実世界のタスクに関して完全には理解されていない。
このギャップに対処するために,ゲーム品質保証タスクから派生した新しいベンチマークであるGlitchBenchを導入し,LMMの推論能力を検証・評価する。
我々のベンチマークは、ビデオゲームの様々な異常なシナリオから算出され、通常イベントの検出と解釈においてLMMの視覚的および言語的推論能力に挑戦することを目的としている。
我々は、複数の最先端LMMを評価し、GlitchBenchがこれらのモデルに新しい課題を示すことを示す。
コードとデータは、https://glitchbench.github.io/で入手できる。
関連論文リスト
- HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks [25.959032350818795]
HumanEval-Vは、コード生成による大規模言語モデルの視覚的理解と推論能力を評価するために設計されたベンチマークである。
HumanEval-Vには、CodeForcesやStack Overflowといったプラットフォームから派生した、108の慎重に構築されたエントリーレベルのPythonコーディングタスクが含まれている。
我々はHumanEval-Vを用いて19の最先端LMMを評価し、重要な課題を明らかにした。
論文 参考訳(メタデータ) (2024-10-16T09:04:57Z) - Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos [30.72753471355853]
我々は,1000対の短いビデオキャプチャと自然なビデオキャプチャのペアを含む時間的対実的LMM評価ベンチマークであるVinogroundを紹介した。
既存のLMMは、異なる動作とオブジェクト変換の時間的差異を区別するのに苦労していることを示す。
すべてのオープンソースマルチモーダルモデルとCLIPベースのモデルは、かなりパフォーマンスが悪く、大半がランダムな確率性能を生み出している。
論文 参考訳(メタデータ) (2024-10-03T17:59:58Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。
我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。
我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-04-08T17:59:24Z) - FMM-Attack: A Flow-based Multi-modal Adversarial Attack on Video-based LLMs [57.59518049930211]
本稿では,ビデオベース大規模言語モデル (LLM) に適した最初の敵攻撃を提案する。
我々の攻撃は、ビデオに知覚不能な逆方向の摂動を加えると、ビデオベースのLCMを効果的に誘導し、誤った回答を発生させる。
我々のFMM-Attackは、モデル出力のギャンブルを誘導し、ビデオベースのLCMを幻覚させる。
論文 参考訳(メタデータ) (2024-03-20T11:05:07Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [159.9847317300497]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。