論文の概要: GlitchBench: Can large multimodal models detect video game glitches?
- arxiv url: http://arxiv.org/abs/2312.05291v1
- Date: Fri, 8 Dec 2023 18:14:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 21:48:35.028138
- Title: GlitchBench: Can large multimodal models detect video game glitches?
- Title(参考訳): glitchbench: 大規模マルチモーダルモデルはビデオゲームの不具合を検知できるのか?
- Authors: Mohammad Reza Taesiri, Tianjun Feng, Cor-Paul Bezemer, Anh Nguyen
- Abstract要約: GlitchBenchは、ビデオゲームの品質保証タスクから派生した新しいベンチマークである。
当社のベンチマークは、ビデオゲームの異常なシナリオや派手なシナリオから収集しています。
我々はGlitchBenchが最先端のLMMに新たな課題をもたらすことを示す。
- 参考スコア(独自算出の注目度): 7.447474488174504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large multimodal models (LMMs) have evolved from large language models (LLMs)
to integrate multiple input modalities, such as visual inputs. This integration
augments the capacity of LLMs for tasks requiring visual comprehension and
reasoning. However, the extent and limitations of their enhanced abilities are
not fully understood, especially when it comes to real-world tasks. To address
this gap, we introduce GlitchBench, a novel benchmark derived from video game
quality assurance tasks, to test and evaluate the reasoning capabilities of
LMMs. Our benchmark is curated from a variety of unusual and glitched scenarios
from video games and aims to challenge both the visual and linguistic reasoning
powers of LMMs in detecting and interpreting out-of-the-ordinary events. We
evaluate multiple state-of-the-art LMMs, and we show that GlitchBench presents
a new challenge for these models. Code and data are available at:
https://glitchbench.github.io/
- Abstract(参考訳): 大規模マルチモーダルモデル (LMM) は大規模言語モデル (LLM) から進化し、視覚入力などの複数の入力モダリティを統合する。
この統合により、視覚的理解と推論を必要とするタスクに対するLLMの容量が増大する。
しかし、それらの強化能力の程度と限界は、特に現実世界のタスクに関して完全には理解されていない。
このギャップに対処するために,ゲーム品質保証タスクから派生した新しいベンチマークであるGlitchBenchを導入し,LMMの推論能力を検証・評価する。
我々のベンチマークは、ビデオゲームの様々な異常なシナリオから算出され、通常イベントの検出と解釈においてLMMの視覚的および言語的推論能力に挑戦することを目的としている。
我々は、複数の最先端LMMを評価し、GlitchBenchがこれらのモデルに新しい課題を示すことを示す。
コードとデータは、https://glitchbench.github.io/で入手できる。
関連論文リスト
- MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。
我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。
我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2024-04-08T17:59:24Z) - FMM-Attack: A Flow-based Multi-modal Adversarial Attack on Video-based LLMs [57.59518049930211]
本稿では,ビデオベース大規模言語モデル (LLM) に適した最初の敵攻撃を提案する。
我々の攻撃は、ビデオに知覚不能な逆方向の摂動を加えると、ビデオベースのLCMを効果的に誘導し、誤った回答を発生させる。
我々のFMM-Attackは、モデル出力のギャンブルを誘導し、ビデオベースのLCMを幻覚させる。
論文 参考訳(メタデータ) (2024-03-20T11:05:07Z) - VL-ICL Bench: The Devil in the Details of Benchmarking Multimodal In-Context Learning [12.450293825734313]
大規模言語モデル(LLM)は、創発的な文脈内学習(ICL)を示すことで有名である。
本研究では,マルチモーダルインコンテキスト学習のためのベンチマークVL-ICL Benchを提案する。
我々は,このベンチマークスイートに対して最先端のVLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-03-19T21:31:56Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large
Multimodal Models [92.68883571206032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
我々はLMMの知覚能力の学習をタスク非依存およびタスク特化段階に分離する。
LumenはCOCO検出ベンチマークで既存のLMMベースのアプローチをはるかに上回り、視覚的なタスクにシームレスなスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [64.83647588128146]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [159.9847317300497]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。