Fugu-MT 論文翻訳(概要): GuessBench: Sensemaking Multimodal Creativity in the Wild

論文の概要: GuessBench: Sensemaking Multimodal Creativity in the Wild

arxiv url: http://arxiv.org/abs/2506.00814v1
Date: Sun, 01 Jun 2025 03:32:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 04:22:50.680823
Title: GuessBench: Sensemaking Multimodal Creativity in the Wild
Title（参考訳）: GuessBench: 野生でマルチモーダルな創造性を実現する
Authors: Zifeng Zhu, Shangbin Feng, Herun Wan, Ningnan Wang, Minnan Luo, Yulia Tsvetkov,
Abstract要約: 広汎でノイズの多い,多元的な人間の創造性をモデル化する上で,視覚言語モデル(VLM)を評価する新しいベンチマークであるGuessBenchを提案する。 GuessBenchは、オンラインマルチプレイヤーMinecraftミニゲーム「Guess the Build」のデータを入手している。静的画像設定や動的画像設定,自然言語ヒントなど,2000年問題の実際のゲームプレイから1500枚の画像をキュレートする。
参考スコア（独自算出の注目度）: 44.774825720300235
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose GuessBench, a novel benchmark that evaluates Vision Language Models (VLMs) on modeling the pervasive, noisy, and pluralistic human creativity. GuessBench sources data from "Guess the Build", an online multiplayer Minecraft minigame where one player constructs a Minecraft build given a concept (e.g. caterpillar) and others try to guess it with natural language hints, presenting a pristine testbed for sensemaking creativity in the wild with VLMs acting as guessers. We curate 1500 images from the actual gameplay and design 2000 problems spanning static and dynamic image settings, natural language hints of varying completeness, and more. Extensive experiments with six open/API VLMs and five reasoning enhancement approaches demonstrate that GuessBench presents a uniquely challenging task in creativity modeling: even the start-of-the-art GPT-4o is incorrect on 34% of instances, while we observe a huge performance gap (13.87% vs. 53.93% on average) between open and API models. When used as a resource to improve VLMs, fine-tuning on the reasoning traces for GuessBench problems improves visual perception tasks by 15.36% on average. Further analysis reveals that VLM performance in creativity sensemaking correlates with the frequency of the concept in training data, while the accuracy drops sharply for concepts in underrepresented cultural contexts and low-resource languages.
Abstract（参考訳）: 広汎でノイズの多い,多元的な人間の創造性をモデル化する上で,視覚言語モデル(VLM)を評価する新しいベンチマークであるGuessBenchを提案する。 GuessBenchは、オンラインマルチプレイヤーMinecraftミニゲーム「Guess the Build」のデータを入手し、あるプレイヤーがMinecraftのコンセプト(例えばキャタピラー)を制作し、他のプレイヤーが自然言語のヒントでそれを推測しようと試み、VLMが推理役を演じている。実際のゲームプレイとデザイン2000の問題から1500枚の画像をキュレートする。 6つのオープン/API VLMと5つの理由付け強化アプローチによる大規模な実験は、GuessBenchがクリエイティビティモデリングにおいてユニークな課題を提示していることを示している。 VLMを改善するためのリソースとして使用されると、グエスベンチ問題の推論トレースの微調整により、視覚知覚タスクは平均15.36%向上する。さらに分析した結果, 創造性感覚のVLM性能は, 学習データにおける概念の頻度と相関し, 文化的文脈や低リソース言語における概念の精度は急激に低下することがわかった。

関連論文リスト

MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence [50.38961770108891]
MMSI-Benchは、マルチイメージ空間インテリジェンスに特化したVQAベンチマークである。我々は、大規模な実験を行い、34のオープンソースおよびプロプライエタリMLLMを徹底的に評価する。最も強力なオープンソースモデルはおよそ30%の精度に達し、OpenAIのo3推論モデルは40%に達し、人間は97%である。
論文参考訳（メタデータ） (2025-05-29T17:59:52Z)
ProBench: Judging Multimodal Foundation Models on Open-ended Multi-domain Expert Tasks [43.509761349059914]
ProBenchはプロの専門知識と高度な推論を必要とするオープンエンドのユーザクエリのベンチマークである。 10の分野と56のサブフィールドにまたがっており、科学、芸術、人文科学、コーディング、数学、創造的執筆などが含まれる。 ProBenchは、視覚知覚、テキスト理解、ドメイン知識、高度な推論において重要な課題を提示している。
論文参考訳（メタデータ） (2025-03-10T03:29:18Z)
MageBench: Bridging Large Multimodal Models to Agents [90.59091431806793]
LMMは印象的な視覚的理解能力を示しており、エージェントに適用される可能性がある。既存のベンチマークは、主に言語部分における推論能力を評価する。 MageBenchは推論機能指向のマルチモーダルエージェントベンチマークである。
論文参考訳（メタデータ） (2024-12-05T17:08:19Z)
Evaluating Creativity and Deception in Large Language Models: A Simulation Framework for Multi-Agent Balderdash [6.65572931991284]
大きな言語モデル(LLM)は複雑なタスクや対話的な環境において印象的な機能を示している。本稿では, LLMの創造性と論理的推論の両面を評価するために, Balderdash を利用したシミュレーションフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-15T18:42:48Z)
NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples [79.82029431745612]
視覚自動モデル(VLM)は、人間が容易に答えられるような自然なイメージや疑問に苦戦している。我々は,1万個の人間検証VQAサンプルを用いて,VLMを確実に評価するための新しいベンチマークであるNaturalBenchを提案する。 LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL, および GPT-4o lag の 50%-70% 遅れ(90%以上)を示した。
論文参考訳（メタデータ） (2024-10-18T17:58:21Z)
JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images [72.42826916932519]
生成した画像のベンチマークであるJourneyBenchをリリースし、モデルの微細なマルチモーダル推論能力を評価する。既存のベンチマークとは異なり、JourneyBenchは特異な想像上のシナリオにおいて、きめ細かいマルチモーダル推論を必要とする。 5つのタスクにまたがる結果から、JourneyBenchは最高のモデルでも非常に難しい。
論文参考訳（メタデータ） (2024-09-19T17:58:16Z)
WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences [122.87483437694706]
WildVision-Arena(WV-Arena)は、人間の好みを収集して視覚言語モデル(VLM)を評価するオンラインプラットフォームです。 WV-ベンチは、それぞれのVLMとClaude-3-Sonnetを比較し、WV-Arena Eloの0.94のスピアマン相関を達成している。実世界の20万件のインタラクションを包括的に分析した結果,トップパフォーマンスのVLMの障害事例に対する重要な洞察が得られた。
論文参考訳（メタデータ） (2024-06-16T20:53:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。