論文の概要: CreBench: Human-Aligned Creativity Evaluation from Idea to Process to Product
- arxiv url: http://arxiv.org/abs/2511.13626v1
- Date: Mon, 17 Nov 2025 17:34:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.642766
- Title: CreBench: Human-Aligned Creativity Evaluation from Idea to Process to Product
- Title(参考訳): CreBench: アイデアからプロセス、製品に至るまでの人間指向の創造性評価
- Authors: Kaiwen Xue, Chenglong Li, Zhonghong Ou, Guoxin Zhang, Kaoyan Lu, Shuai Lyu, Yifan Zhu, Ping Zong Junpeng Ding, Xinyu Liu, Qunlin Chen, Weiwei Qin, Yiran Shen, Jiayi Cen,
- Abstract要約: 1)創造的アイデアからプロセスから製品までの複数の次元をカバーする評価ベンチマーク,2) 多様なソースを持つ2.2Kのマルチモーダルデータと79.2Kのヒューマンフィードバック,4.7Mのマルチタイプインストラクションからなるマルチモーダル創造性評価データセットであるCreMITを提案する。
CreBenchをベースとして、オープンソースの汎用MLLMを微調整し、マルチモーダルなクリエイティビティ評価エキスパートモデルであるCreExpertを実現した。
- 参考スコア(独自算出の注目度): 19.642777811488337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-defined creativity is highly abstract, posing a challenge for multimodal large language models (MLLMs) to comprehend and assess creativity that aligns with human judgments. The absence of an existing benchmark further exacerbates this dilemma. To this end, we propose CreBench, which consists of two key components: 1) an evaluation benchmark covering the multiple dimensions from creative idea to process to products; 2) CreMIT (Creativity Multimodal Instruction Tuning dataset), a multimodal creativity evaluation dataset, consisting of 2.2K diverse-sourced multimodal data, 79.2K human feedbacks and 4.7M multi-typed instructions. Specifically, to ensure MLLMs can handle diverse creativity-related queries, we prompt GPT to refine these human feedbacks to activate stronger creativity assessment capabilities. CreBench serves as a foundation for building MLLMs that understand human-aligned creativity. Based on the CreBench, we fine-tune open-source general MLLMs, resulting in CreExpert, a multimodal creativity evaluation expert model. Extensive experiments demonstrate that the proposed CreExpert models achieve significantly better alignment with human creativity evaluation compared to state-of-the-art MLLMs, including the most advanced GPT-4V and Gemini-Pro-Vision.
- Abstract(参考訳): 人間の定義された創造性は非常に抽象的であり、人間の判断に沿った創造性を理解し評価するマルチモーダルな大規模言語モデル(MLLM)の課題である。
既存のベンチマークがないと、このジレンマはさらに悪化する。
この目的のために,CreBenchを提案する。
1) 創造的アイデアからプロセスから製品に至るまでの複数の次元をカバーする評価ベンチマーク
2) CreMIT (Creativity Multimodal Instruction Tuning dataset)は,2.2Kの多様なソースを持つマルチモーダルデータ,79.2Kのフィードバック,4.7Mのマルチタイプインストラクションからなるマルチモーダル創造性評価データセットである。
具体的には、MLLMが多様なクリエイティビティ関連クエリを処理できるように、GPTにこれらの人間のフィードバックを洗練させ、より強力なクリエイティビティ評価能力を活性化させるよう促す。
CreBenchは、人間による創造性を理解するMLLMを構築する基盤として機能する。
CreBenchをベースとして、オープンソースのジェネラルMLLMを微調整し、マルチモーダルなクリエイティビティ評価エキスパートモデルであるCreExpertを作成しました。
大規模な実験により、提案したCreExpertモデルは、最先端のGPT-4VやGemini-Pro-Visionを含む最先端のMLLMと比較して、人間の創造性評価との整合性を大幅に向上することが示された。
関連論文リスト
- CreativityPrism: A Holistic Benchmark for Large Language Model Creativity [64.18257552903151]
創造性はしばしば人間の知能の目印と見なされる。
さまざまなシナリオにまたがってクリエイティビティを評価するための総合的なフレームワークはまだ存在しません。
本稿では,創造性を質,新規性,多様性の3次元に分解する評価分析フレームワークであるCreativePrismを提案する。
論文 参考訳(メタデータ) (2025-10-23T00:22:10Z) - Creative Preference Optimization [17.849454438382995]
複数の創造性次元からの信号をモジュール方式で優先最適化対象に注入する新しいアライメント手法を提案する。
大規模な人選好データセットであるCrPOと MuCE を用いて,創造性向上型モデルをトレーニングし,評価する。
我々のモデルは、自動評価と人的評価の両方において、GPT-4oを含む強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2025-05-20T14:43:41Z) - Probing and Inducing Combinational Creativity in Vision-Language Models [52.76981145923602]
VLM(Vision-Language Models)の最近の進歩は、それらのアウトプットが組合せの創造性を反映しているかという議論を引き起こしている。
本稿では,創造的プロセスを3つのレベルに分解するIEIフレームワークを提案する。
このフレームワークを検証するために、IEIフレームワークに従って注釈付けされた666人のアーティストによる視覚マッシュアップの高品質データセットであるCreativeMashupをキュレートする。
論文 参考訳(メタデータ) (2025-04-17T17:38:18Z) - Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM [58.42678619252968]
Creation-MMBenchはマルチモーダル大言語モデルの創造性を評価するために設計されたベンチマークである。
ベンチマークは、51のきめ細かいタスクにまたがる765のテストケースで構成されている。
実験結果から,オープンソースのMLLMは,クリエイティブタスクにおけるプロプライエタリなモデルに比べて著しく性能が劣っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-03-18T17:51:34Z) - A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models [100.16387798660833]
オオギリゲーム(オオギリゲーム)は、ユーモアと連想的思考を必要とする創造的な仕事である。
LoTbenchはインタラクティブで因果性を考慮した評価フレームワークである。
その結果、ほとんどのLLMは制約された創造性を示すが、LLMと人間の間の性能格差は克服できないことがわかった。
論文 参考訳(メタデータ) (2025-01-25T09:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。