Fugu-MT 論文翻訳(概要): GlitchBench: Can large multimodal models detect video game glitches?

論文の概要: GlitchBench: Can large multimodal models detect video game glitches?

arxiv url: http://arxiv.org/abs/2312.05291v1
Date: Fri, 8 Dec 2023 18:14:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 21:48:35.028138
Title: GlitchBench: Can large multimodal models detect video game glitches?
Title（参考訳）: glitchbench: 大規模マルチモーダルモデルはビデオゲームの不具合を検知できるのか?
Authors: Mohammad Reza Taesiri, Tianjun Feng, Cor-Paul Bezemer, Anh Nguyen
Abstract要約: GlitchBenchは、ビデオゲームの品質保証タスクから派生した新しいベンチマークである。当社のベンチマークは、ビデオゲームの異常なシナリオや派手なシナリオから収集しています。我々はGlitchBenchが最先端のLMMに新たな課題をもたらすことを示す。
参考スコア（独自算出の注目度）: 7.447474488174504
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large multimodal models (LMMs) have evolved from large language models (LLMs) to integrate multiple input modalities, such as visual inputs. This integration augments the capacity of LLMs for tasks requiring visual comprehension and reasoning. However, the extent and limitations of their enhanced abilities are not fully understood, especially when it comes to real-world tasks. To address this gap, we introduce GlitchBench, a novel benchmark derived from video game quality assurance tasks, to test and evaluate the reasoning capabilities of LMMs. Our benchmark is curated from a variety of unusual and glitched scenarios from video games and aims to challenge both the visual and linguistic reasoning powers of LMMs in detecting and interpreting out-of-the-ordinary events. We evaluate multiple state-of-the-art LMMs, and we show that GlitchBench presents a new challenge for these models. Code and data are available at: https://glitchbench.github.io/
Abstract（参考訳）: 大規模マルチモーダルモデル (LMM) は大規模言語モデル (LLM) から進化し、視覚入力などの複数の入力モダリティを統合する。この統合により、視覚的理解と推論を必要とするタスクに対するLLMの容量が増大する。しかし、それらの強化能力の程度と限界は、特に現実世界のタスクに関して完全には理解されていない。このギャップに対処するために,ゲーム品質保証タスクから派生した新しいベンチマークであるGlitchBenchを導入し,LMMの推論能力を検証・評価する。我々のベンチマークは、ビデオゲームの様々な異常なシナリオから算出され、通常イベントの検出と解釈においてLMMの視覚的および言語的推論能力に挑戦することを目的としている。我々は、複数の最先端LMMを評価し、GlitchBenchがこれらのモデルに新しい課題を示すことを示す。コードとデータは、https://glitchbench.github.io/で入手できる。

関連論文リスト

Play to Generalize: Learning to Reason Through Game Play [11.778612579151067]
そこで我々は,MLLMがアーケード的なゲームによってマルチモーダル推論のドメイン外一般化を開発する,新たな学習パラダイムであるVisual Game Learningを提案する。ルールベースのゲームは、制御可能でスケーラブルなプレテキストタスクとして機能する。
論文参考訳（メタデータ） (2025-06-09T17:59:57Z)
lmgame-Bench: How Good are LLMs at Playing Games? [60.01834131847881]
本稿では,現代の大規模言語モデル (LLM) エージェントを評価するために,人気ゲームを使用する上での大きな課題について検討する。我々はlmgame-Benchを導入し、ゲームを信頼性評価に変換する。
論文参考訳（メタデータ） (2025-05-21T06:02:55Z)
Beyond Outcomes: Transparent Assessment of LLM Reasoning in Games [54.49589494014147]
GAMEBoTは、大規模言語モデルの厳格な評価のために設計されたゲームアリーナである。我々は,8つのゲームにまたがる17の卓越したLSMをベンチマークし,様々な戦略能力とゲーム特性について検討した。以上の結果から,LDMに詳細なCoTプロンプトが付与されている場合でも,GAMEBoTは大きな課題となることが示唆された。
論文参考訳（メタデータ） (2024-12-18T08:32:53Z)
MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。既存のベンチマークは、主に言語部分における推論能力を評価する。 MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文参考訳（メタデータ） (2024-12-05T17:08:19Z)
HumanEval-V: Evaluating Visual Understanding and Reasoning Abilities of Large Multimodal Models Through Coding Tasks [25.959032350818795]
HumanEval-Vは、コード生成による大規模言語モデルの視覚的理解と推論能力を評価するために設計されたベンチマークである。 HumanEval-Vには、CodeForcesやStack Overflowといったプラットフォームから派生した、108の慎重に構築されたエントリーレベルのPythonコーディングタスクが含まれている。我々はHumanEval-Vを用いて19の最先端LMMを評価し、重要な課題を明らかにした。
論文参考訳（メタデータ） (2024-10-16T09:04:57Z)
Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos [30.72753471355853]
我々は,1000対の短いビデオキャプチャと自然なビデオキャプチャのペアを含む時間的対実的LMM評価ベンチマークであるVinogroundを紹介した。既存のLMMは、異なる動作とオブジェクト変換の時間的差異を区別するのに苦労していることを示す。すべてのオープンソースマルチモーダルモデルとCLIPベースのモデルは、かなりパフォーマンスが悪く、大半がランダムな確率性能を生み出している。
論文参考訳（メタデータ） (2024-10-03T17:59:58Z)
Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。本稿では,言語モデルの観点からこの問題にアプローチする。言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文参考訳（メタデータ） (2024-06-24T17:58:06Z)
VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文参考訳（メタデータ） (2024-06-14T17:59:01Z)
F-LMM: Grounding Frozen Large Multimodal Models [53.8059045627934]
我々は,人間とAIの会話において,F-LMM(F-LMM)を解凍したLMMを提示する。単語と画素の対応が視覚的接地によって誘導されるという事実は、十分に訓練されたLMMの注意機構に本質的に存在するという事実に基づいている。表現セグメンテーションと単視的物語グラウンドベンチマークの競合性能を実現する。
論文参考訳（メタデータ） (2024-06-09T15:14:26Z)
MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding [66.56100008577134]
本研究は,長期的映像理解のための効率的かつ効果的なモデルの設計に焦点を当てる。我々は,過去の映像情報をメモリバンクに格納し,オンラインで動画を処理することを提案する。我々のモデルは、複数のデータセットにわたって最先端のパフォーマンスを達成することができる。
論文参考訳（メタデータ） (2024-04-08T17:59:24Z)
FMM-Attack: A Flow-based Multi-modal Adversarial Attack on Video-based LLMs [57.59518049930211]
本稿では,ビデオベース大規模言語モデル (LLM) に適した最初の敵攻撃を提案する。我々の攻撃は、ビデオに知覚不能な逆方向の摂動を加えると、ビデオベースのLCMを効果的に誘導し、誤った回答を発生させる。我々のFMM-Attackは、モデル出力のギャンブルを誘導し、ビデオベースのLCMを幻覚させる。
論文参考訳（メタデータ） (2024-03-20T11:05:07Z)
Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文参考訳（メタデータ） (2024-03-12T04:13:45Z)
MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [159.9847317300497]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文参考訳（メタデータ） (2023-08-04T17:59:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。