論文の概要: GuessBench: Sensemaking Multimodal Creativity in the Wild
- arxiv url: http://arxiv.org/abs/2506.00814v1
- Date: Sun, 01 Jun 2025 03:32:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.680823
- Title: GuessBench: Sensemaking Multimodal Creativity in the Wild
- Title(参考訳): GuessBench: 野生でマルチモーダルな創造性を実現する
- Authors: Zifeng Zhu, Shangbin Feng, Herun Wan, Ningnan Wang, Minnan Luo, Yulia Tsvetkov,
- Abstract要約: 広汎でノイズの多い,多元的な人間の創造性をモデル化する上で,視覚言語モデル(VLM)を評価する新しいベンチマークであるGuessBenchを提案する。
GuessBenchは、オンラインマルチプレイヤーMinecraftミニゲーム「Guess the Build」のデータを入手している。
静的画像設定や動的画像設定,自然言語ヒントなど,2000年問題の実際のゲームプレイから1500枚の画像をキュレートする。
- 参考スコア(独自算出の注目度): 44.774825720300235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose GuessBench, a novel benchmark that evaluates Vision Language Models (VLMs) on modeling the pervasive, noisy, and pluralistic human creativity. GuessBench sources data from "Guess the Build", an online multiplayer Minecraft minigame where one player constructs a Minecraft build given a concept (e.g. caterpillar) and others try to guess it with natural language hints, presenting a pristine testbed for sensemaking creativity in the wild with VLMs acting as guessers. We curate 1500 images from the actual gameplay and design 2000 problems spanning static and dynamic image settings, natural language hints of varying completeness, and more. Extensive experiments with six open/API VLMs and five reasoning enhancement approaches demonstrate that GuessBench presents a uniquely challenging task in creativity modeling: even the start-of-the-art GPT-4o is incorrect on 34% of instances, while we observe a huge performance gap (13.87% vs. 53.93% on average) between open and API models. When used as a resource to improve VLMs, fine-tuning on the reasoning traces for GuessBench problems improves visual perception tasks by 15.36% on average. Further analysis reveals that VLM performance in creativity sensemaking correlates with the frequency of the concept in training data, while the accuracy drops sharply for concepts in underrepresented cultural contexts and low-resource languages.
- Abstract(参考訳): 広汎でノイズの多い,多元的な人間の創造性をモデル化する上で,視覚言語モデル(VLM)を評価する新しいベンチマークであるGuessBenchを提案する。
GuessBenchは、オンラインマルチプレイヤーMinecraftミニゲーム「Guess the Build」のデータを入手し、あるプレイヤーがMinecraftのコンセプト(例えばキャタピラー)を制作し、他のプレイヤーが自然言語のヒントでそれを推測しようと試み、VLMが推理役を演じている。
実際のゲームプレイとデザイン2000の問題から1500枚の画像をキュレートする。
6つのオープン/API VLMと5つの理由付け強化アプローチによる大規模な実験は、GuessBenchがクリエイティビティモデリングにおいてユニークな課題を提示していることを示している。
VLMを改善するためのリソースとして使用されると、グエスベンチ問題の推論トレースの微調整により、視覚知覚タスクは平均15.36%向上する。
さらに分析した結果, 創造性感覚のVLM性能は, 学習データにおける概念の頻度と相関し, 文化的文脈や低リソース言語における概念の精度は急激に低下することがわかった。
関連論文リスト
- NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples [79.82029431745612]
視覚自動モデル(VLM)は、人間が容易に答えられるような自然なイメージや疑問に苦戦している。
我々は,1万個の人間検証VQAサンプルを用いて,VLMを確実に評価するための新しいベンチマークであるNaturalBenchを提案する。
LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL, および GPT-4o lag の 50%-70% 遅れ(90%以上)を示した。
論文 参考訳(メタデータ) (2024-10-18T17:58:21Z) - JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images [72.42826916932519]
生成した画像のベンチマークであるJourneyBenchをリリースし、モデルの微細なマルチモーダル推論能力を評価する。
既存のベンチマークとは異なり、JourneyBenchは特異な想像上のシナリオにおいて、きめ細かいマルチモーダル推論を必要とする。
5つのタスクにまたがる結果から、JourneyBenchは最高のモデルでも非常に難しい。
論文 参考訳(メタデータ) (2024-09-19T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。