Fugu-MT 論文翻訳(概要): Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM

論文の概要: Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM

arxiv url: http://arxiv.org/abs/2503.14478v1
Date: Tue, 18 Mar 2025 17:51:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-19 16:29:13.376138
Title: Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM
Title（参考訳）: Creation-MMBench:MLLMにおけるコンテキスト認識創造性の評価
Authors: Xinyu Fang, Zhijian Chen, Kai Lan, Shengyuan Ding, Yingji Liang, Xiangyu Zhao, Farong Wen, Zicheng Zhang, Guofeng Zhang, Haodong Duan, Kai Chen, Dahua Lin,
Abstract要約: Creation-MMBenchはマルチモーダル大言語モデルの創造性を評価するために設計されたベンチマークである。ベンチマークは、51のきめ細かいタスクにまたがる765のテストケースで構成されている。実験結果から,オープンソースのMLLMは,クリエイティブタスクにおけるプロプライエタリなモデルに比べて著しく性能が劣っていることが明らかとなった。
参考スコア（独自算出の注目度）: 59.85501345239092
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Creativity is a fundamental aspect of intelligence, involving the ability to generate novel and appropriate solutions across diverse contexts. While Large Language Models (LLMs) have been extensively evaluated for their creative capabilities, the assessment of Multimodal Large Language Models (MLLMs) in this domain remains largely unexplored. To address this gap, we introduce Creation-MMBench, a multimodal benchmark specifically designed to evaluate the creative capabilities of MLLMs in real-world, image-based tasks. The benchmark comprises 765 test cases spanning 51 fine-grained tasks. To ensure rigorous evaluation, we define instance-specific evaluation criteria for each test case, guiding the assessment of both general response quality and factual consistency with visual inputs. Experimental results reveal that current open-source MLLMs significantly underperform compared to proprietary models in creative tasks. Furthermore, our analysis demonstrates that visual fine-tuning can negatively impact the base LLM's creative abilities. Creation-MMBench provides valuable insights for advancing MLLM creativity and establishes a foundation for future improvements in multimodal generative intelligence. Full data and evaluation code is released on https://github.com/open-compass/Creation-MMBench.
Abstract（参考訳）: 創造性はインテリジェンスの基本的側面であり、多様な文脈にまたがる斬新で適切なソリューションを生成する能力を含んでいる。大規模言語モデル (LLM) は、その創造性について広く評価されてきたが、この領域におけるマルチモーダル・大規模言語モデル (MLLM) の評価は、まだ明らかにされていない。このギャップに対処するために,実世界の画像ベースタスクにおけるMLLMの創造性を評価するためのマルチモーダルベンチマークであるCreation-MMBenchを紹介する。ベンチマークは、51のきめ細かいタスクにまたがる765のテストケースで構成されている。厳密な評価を確保するため、各テストケースのインスタンス固有の評価基準を定義し、一般的な応答品質と視覚入力との事実整合性の両方の評価を導く。実験結果から,現行のオープンソースMLLMは,クリエイティブタスクのプロプライエタリモデルに比べて大幅に性能が低下していることが明らかとなった。さらに,視覚的微調整がLLMの創造能力に悪影響を及ぼすことを示す。 Creation-MMBenchはMLLMの創造性を向上するための貴重な洞察を提供し、マルチモーダル生成インテリジェンスにおける将来の改善の基礎を確立する。完全なデータと評価コードはhttps://github.com/open-compass/Creation-MMBenchで公開されている。

関連論文リスト

RealFactBench: A Benchmark for Evaluating Large Language Models in Real-World Fact-Checking [31.02873474960849]
本稿では,Large Language Models(LLM)とMultimodal Large Language Models(MLLM)のファクトチェック機能を評価するためのベンチマークであるRealFactBenchを紹介する。 RealFactBenchは、権威のあるソースから引き出された6Kの高品質なクレームで構成され、マルチモーダルコンテンツと多様なドメインを含んでいる。評価フレームワークはさらにUnknown Rate(UnR)メトリクスを導入し、不確実性を扱うモデルの能力をよりきめ細やかな評価を可能にします。
論文参考訳（メタデータ） (2025-06-14T15:27:44Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
PuzzleBench: A Fully Dynamic Evaluation Framework for Large Multimodal Models on Puzzle Solving [50.50405233978406]
我々は、OVPG(Open-ended Visual Puzzle Generation)という、完全に動的なマルチモーダル評価フレームワークを提案する。 OVPGは、パズル解決タスクにおいて、新しく、多様性があり、検証可能な評価データを自動的に生成することを目的としている。 OVPG上に構築されたPuzzleBenchは11,840のVQAサンプルからなる動的でスケーラブルなベンチマークである。
論文参考訳（メタデータ） (2025-04-15T05:29:31Z)
EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。我々はEmbodiedBench内のプロプライエタリでオープンソースなMLLMを19件評価した。 MLLMは高レベルのタスクでは優れているが、低レベルの操作には苦労する。
論文参考訳（メタデータ） (2025-02-13T18:11:34Z)
A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models [100.16387798660833]
オオギリゲーム(オオギリゲーム)は、ユーモアと連想的思考を必要とする創造的な仕事である。 LoTbenchはインタラクティブで因果性を考慮した評価フレームワークである。その結果、ほとんどのLLMは制約された創造性を示すが、LLMと人間の間の性能格差は克服できないことがわかった。
論文参考訳（メタデータ） (2025-01-25T09:11:15Z)
EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。 EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文参考訳（メタデータ） (2025-01-21T03:22:10Z)
MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文参考訳（メタデータ） (2024-10-16T07:52:57Z)
SimulBench: Evaluating Language Models with Creative Simulation Tasks [20.233111652638637]
我々は,大規模言語モデル(LLM)を評価するためのベンチマークであるSimulBenchを紹介した。大きな課題は、ユーザとAI間のシミュレーションタスクのマルチラウンドインタラクティブな性質を保ちながら、異なるLLMを公平にテストするための評価フレームワークを開発することである。
論文参考訳（メタデータ） (2024-09-11T21:53:20Z)
CreativEval: Evaluating Creativity of LLM-Based Hardware Code Generation [4.664950672096393]
大規模言語モデル(LLM)は、コードを生成するのに効果的で効率的であることが証明されている。 CreativeEvalは、ハードウェア設計を作成するコンテキストにおけるLCMの創造性を評価するためのフレームワークである。
論文参考訳（メタデータ） (2024-04-12T20:41:47Z)
Assessing and Understanding Creativity in Large Language Models [33.37237667182931]
本稿では,大規模言語モデル(LLM)における創造性レベルを評価するための効率的な枠組みを確立することを目的とする。 The Torrance Tests of Creative Thinking を用いて、7つのタスクにまたがる様々なLSMの創造的パフォーマンスを評価する。 LLMの創造性は、主に独創性に欠けるが、エラボレーションには優れていた。
論文参考訳（メタデータ） (2024-01-23T05:19:47Z)
SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。 SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文参考訳（メタデータ） (2023-11-28T05:53:55Z)
MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文参考訳（メタデータ） (2023-11-23T12:04:25Z)
Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。 LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文参考訳（メタデータ） (2023-09-13T17:57:21Z)
CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文参考訳（メタデータ） (2023-05-23T17:51:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。