論文の概要: GlitchBench: Can large multimodal models detect video game glitches?
- arxiv url: http://arxiv.org/abs/2312.05291v1
- Date: Fri, 8 Dec 2023 18:14:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 21:48:35.028138
- Title: GlitchBench: Can large multimodal models detect video game glitches?
- Title(参考訳): glitchbench: 大規模マルチモーダルモデルはビデオゲームの不具合を検知できるのか?
- Authors: Mohammad Reza Taesiri, Tianjun Feng, Cor-Paul Bezemer, Anh Nguyen
- Abstract要約: GlitchBenchは、ビデオゲームの品質保証タスクから派生した新しいベンチマークである。
当社のベンチマークは、ビデオゲームの異常なシナリオや派手なシナリオから収集しています。
我々はGlitchBenchが最先端のLMMに新たな課題をもたらすことを示す。
- 参考スコア(独自算出の注目度): 7.447474488174504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large multimodal models (LMMs) have evolved from large language models (LLMs)
to integrate multiple input modalities, such as visual inputs. This integration
augments the capacity of LLMs for tasks requiring visual comprehension and
reasoning. However, the extent and limitations of their enhanced abilities are
not fully understood, especially when it comes to real-world tasks. To address
this gap, we introduce GlitchBench, a novel benchmark derived from video game
quality assurance tasks, to test and evaluate the reasoning capabilities of
LMMs. Our benchmark is curated from a variety of unusual and glitched scenarios
from video games and aims to challenge both the visual and linguistic reasoning
powers of LMMs in detecting and interpreting out-of-the-ordinary events. We
evaluate multiple state-of-the-art LMMs, and we show that GlitchBench presents
a new challenge for these models. Code and data are available at:
https://glitchbench.github.io/
- Abstract(参考訳): 大規模マルチモーダルモデル (LMM) は大規模言語モデル (LLM) から進化し、視覚入力などの複数の入力モダリティを統合する。
この統合により、視覚的理解と推論を必要とするタスクに対するLLMの容量が増大する。
しかし、それらの強化能力の程度と限界は、特に現実世界のタスクに関して完全には理解されていない。
このギャップに対処するために,ゲーム品質保証タスクから派生した新しいベンチマークであるGlitchBenchを導入し,LMMの推論能力を検証・評価する。
我々のベンチマークは、ビデオゲームの様々な異常なシナリオから算出され、通常イベントの検出と解釈においてLMMの視覚的および言語的推論能力に挑戦することを目的としている。
我々は、複数の最先端LMMを評価し、GlitchBenchがこれらのモデルに新しい課題を示すことを示す。
コードとデータは、https://glitchbench.github.io/で入手できる。
関連論文リスト
- Beyond Outcomes: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。
我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。
以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文 参考訳(メタデータ) (2024-12-18T08:32:53Z) - MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。
既存のベンチマークは、主に言語部分における推論能力を評価する。
MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文 参考訳(メタデータ) (2024-12-05T17:08:19Z) - NEMO: Can Multimodal LLMs Identify Attribute-Modified Objects? [19.525612393979777]
我々は,オリギナル果実とそれに対応するアトリビュート修飾果実の900枚の画像からなる新しいベンチマークNEMOを紹介する。
ベンチマークを用いて26の最近のオープンソースおよび商用モデルを評価した。
本研究は,NEMOにおける物体認識における性能差を明らかにするとともに,異なるモデル間で異なる解の選好を明らかにすることを目的とした。
論文 参考訳(メタデータ) (2024-11-26T17:47:34Z) - Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos [30.72753471355853]
我々は,1000対の短いビデオキャプチャと自然なビデオキャプチャのペアを含む時間的対実的LMM評価ベンチマークであるVinogroundを紹介した。
既存のLMMは、異なる動作とオブジェクト変換の時間的差異を区別するのに苦労していることを示す。
すべてのオープンソースマルチモーダルモデルとCLIPベースのモデルは、かなりパフォーマンスが悪く、大半がランダムな確率性能を生み出している。
論文 参考訳(メタデータ) (2024-10-03T17:59:58Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。
我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。
我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-04-08T17:59:24Z) - FMM-Attack: A Flow-based Multi-modal Adversarial Attack on Video-based LLMs [57.59518049930211]
本稿では,ビデオベース大規模言語モデル (LLM) に適した最初の敵攻撃を提案する。
我々の攻撃は、ビデオに知覚不能な逆方向の摂動を加えると、ビデオベースのLCMを効果的に誘導し、誤った回答を発生させる。
我々のFMM-Attackは、モデル出力のギャンブルを誘導し、ビデオベースのLCMを幻覚させる。
論文 参考訳(メタデータ) (2024-03-20T11:05:07Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。