論文の概要: Probing and Inducing Combinational Creativity in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2504.13120v2
- Date: Tue, 29 Apr 2025 14:51:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.578628
- Title: Probing and Inducing Combinational Creativity in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける組合せ創造性の提案と誘導
- Authors: Yongqian Peng, Yuxi Ma, Mengmeng Wang, Yuxuan Wang, Yizhou Wang, Chi Zhang, Yixin Zhu, Zilong Zheng,
- Abstract要約: VLM(Vision-Language Models)の最近の進歩は、それらのアウトプットが組合せの創造性を反映しているかという議論を引き起こしている。
本稿では,創造的プロセスを3つのレベルに分解するIEIフレームワークを提案する。
このフレームワークを検証するために、IEIフレームワークに従って注釈付けされた666人のアーティストによる視覚マッシュアップの高品質データセットであるCreativeMashupをキュレートする。
- 参考スコア(独自算出の注目度): 52.76981145923602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to combine existing concepts into novel ideas stands as a fundamental hallmark of human intelligence. Recent advances in Vision-Language Models (VLMs) like GPT-4V and DALLE-3 have sparked debate about whether their outputs reflect combinational creativity--defined by M. A. Boden (1998) as synthesizing novel ideas through combining existing concepts--or sophisticated pattern matching of training data. Drawing inspiration from cognitive science, we investigate the combinational creativity of VLMs from the lens of concept blending. We propose the Identification-Explanation-Implication (IEI) framework, which decomposes creative processes into three levels: identifying input spaces, extracting shared attributes, and deriving novel semantic implications. To validate this framework, we curate CreativeMashup, a high-quality dataset of 666 artist-generated visual mashups annotated according to the IEI framework. Through extensive experiments, we demonstrate that in comprehension tasks, best VLMs have surpassed average human performance while falling short of expert-level understanding; in generation tasks, incorporating our IEI framework into the generation pipeline significantly enhances the creative quality of VLMs' outputs. Our findings establish both a theoretical foundation for evaluating artificial creativity and practical guidelines for improving creative generation in VLMs.
- Abstract(参考訳): 既存の概念を新しいアイデアに組み合わせる能力は、人間の知性の基本的指標である。
GPT-4V や DALLE-3 のような視覚言語モデル (VLM) の最近の進歩は、M. A. Boden (1998) によって定義された、既存の概念と訓練データの高度なパターンマッチングを組み合わせることで、新しいアイデアを合成するものとして、それらの成果が組み合わせ創造性を反映しているかという議論を引き起こしている。
認知科学からインスピレーションを得て,概念ブレンディングのレンズからVLMの組合せ創造性を考察した。
本稿では,創造的プロセスを3つのレベルに分解し,入力空間の同定,共有属性の抽出,新しい意味的含意の導出という,識別-説明-含意(IEI)フレームワークを提案する。
このフレームワークを検証するために、IEIフレームワークに従って注釈付けされた666人のアーティストによる視覚マッシュアップの高品質データセットであるCreativeMashupをキュレートする。
広範にわたる実験により、最高のVLMは、専門家レベルの理解を欠いたまま、平均的な人的パフォーマンスを上回り、生成タスクでは、IEIフレームワークを生成パイプラインに組み込むことで、VLMのアウトプットの創造的品質を大幅に向上させることを示した。
本研究は,人工的な創造性を評価するための理論的基盤と,VLMの創造性向上のための実践的ガイドラインを確立した。
関連論文リスト
- Cooking Up Creativity: A Cognitively-Inspired Approach for Enhancing LLM Creativity through Structured Representations [53.950760059792614]
大きな言語モデル(LLM)は数え切れないほど多くのタスクで優れていますが、創造性に苦慮しています。
我々は、LLMと構造化表現を結合し、より創造的で多様なアイデアを生み出すために認知的にインスピレーションを与える新しいアプローチを導入する。
我々は、創造的なレシピを生成するモデルであるDishCOVERを用いて、料理分野における我々のアプローチを実証する。
論文 参考訳(メタデータ) (2025-04-29T11:13:06Z) - Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM [58.42678619252968]
Creation-MMBenchはマルチモーダル大言語モデルの創造性を評価するために設計されたベンチマークである。
ベンチマークは、51のきめ細かいタスクにまたがる765のテストケースで構成されている。
実験結果から,オープンソースのMLLMは,クリエイティブタスクにおけるプロプライエタリなモデルに比べて著しく性能が劣っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-03-18T17:51:34Z) - A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models [100.16387798660833]
オオギリゲーム(オオギリゲーム)は、ユーモアと連想的思考を必要とする創造的な仕事である。
LoTbenchはインタラクティブで因果性を考慮した評価フレームワークである。
その結果、ほとんどのLLMは制約された創造性を示すが、LLMと人間の間の性能格差は克服できないことがわかった。
論文 参考訳(メタデータ) (2025-01-25T09:11:15Z) - LLMs can Realize Combinatorial Creativity: Generating Creative Ideas via LLMs for Scientific Research [5.564972490390789]
本稿では,Large Language Models (LLM) を用いた創造性理論を明示的に実装するフレームワークを提案する。
このフレームワークは、クロスドメイン知識発見のための一般化レベル検索システムと、アイデア生成のための構造化プロセスを備えている。
OAG-Benchデータセットの実験は、我々のフレームワークの有効性を実証し、実際の研究成果と整合したアイデアを生成するためのベースラインアプローチを一貫して上回っている。
論文 参考訳(メタデータ) (2024-12-18T18:41:14Z) - VL-GLUE: A Suite of Fundamental yet Challenging Visuo-Linguistic Reasoning Tasks [48.67062958311173]
VL-GLUEは、自然言語理解のためのマルチタスクベンチマークである。
既存の大規模視覚言語モデルでは,このベンチマークは非常に難しい。
論文 参考訳(メタデータ) (2024-10-17T15:27:17Z) - MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models [85.10375181040436]
本稿では,視覚言語モデルを包括的かつ正確に評価する新しい人間アノテーションベンチマークMMCOMPOSITIONを提案する。
GPT-4oのコンポジション性は,最も優れたオープンソースモデルよりも劣ることがわかった。
論文 参考訳(メタデータ) (2024-10-13T05:35:09Z) - Creativity Has Left the Chat: The Price of Debiasing Language Models [1.223779595809275]
大規模言語モデル(LLM)の創造性に対する人間からのフィードバックからの強化学習の意図しない結果について検討する。
我々の発見は、コピーライティング、広告作成、顧客ペルソナ生成といったクリエイティブなタスクにLLMを頼っているマーケターにとって大きな意味を持つ。
論文 参考訳(メタデータ) (2024-06-08T22:14:51Z) - Divergent Creativity in Humans and Large Language Models [37.67363469600804]
最近の大規模言語モデルの能力の急上昇は、人間の能力に似た創造性レベルに近づいている、という主張につながっている。
我々は、創造科学の最近の進歩を活用して、最先端のLLMと10万人の実質的なデータセットの両方において、多様な創造性を詳細に分析するためのフレームワークを構築します。
論文 参考訳(メタデータ) (2024-05-13T22:37:52Z) - Can AI Be as Creative as Humans? [84.43873277557852]
理論的には、AIは人間の創造者によって生成されたデータに適切に適合できるという条件の下で、人間と同じくらい創造的になれることを証明しています。
AIの創造性に関する議論は、十分な量のデータに適合する能力の問題に縮小されている。
論文 参考訳(メタデータ) (2024-01-03T08:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。