論文の概要: Rethinking Creativity Evaluation: A Critical Analysis of Existing Creativity Evaluations
- arxiv url: http://arxiv.org/abs/2508.05470v1
- Date: Thu, 07 Aug 2025 15:11:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 21:11:55.688214
- Title: Rethinking Creativity Evaluation: A Critical Analysis of Existing Creativity Evaluations
- Title(参考訳): 創造性評価の再考:既存の創造性評価の批判的分析
- Authors: Li-Chun Lu, Miri Liu, Pin-Chun Lu, Yufei Tian, Shao-Hua Sun, Nanyun Peng,
- Abstract要約: クリエイティビティ指標,パープレキシティ,構文テンプレート,LCM-as-a-Judgeなどのクリエイティビティ指標について検討した。
分析の結果、これらの指標は限定的な一貫性を示し、創造性の異なる次元を捉えていることがわかった。
- 参考スコア(独自算出の注目度): 47.51585845370428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We systematically examine, analyze, and compare representative creativity measures--creativity index, perplexity, syntactic templates, and LLM-as-a-Judge--across diverse creative domains, including creative writing, unconventional problem-solving, and research ideation. Our analyses reveal that these metrics exhibit limited consistency, capturing different dimensions of creativity. We highlight key limitations, including the creativity index's focus on lexical diversity, perplexity's sensitivity to model confidence, and syntactic templates' inability to capture conceptual creativity. Additionally, LLM-as-a-Judge shows instability and bias. Our findings underscore the need for more robust, generalizable evaluation frameworks that better align with human judgments of creativity.
- Abstract(参考訳): 創造性指標(創造性指数)、複雑度(perplexity)、統語的テンプレート(syntactic templates)、LLM-as-a-Judge(LCM-as-a-Judge)など、創造的記述、非伝統的な問題解決、研究思想を含む多様な創造的ドメインを体系的に検討し、分析し、比較する。
分析の結果、これらの指標は限定的な一貫性を示し、創造性の異なる次元を捉えていることがわかった。
創造性指数の語彙的多様性へのフォーカス、モデルの信頼性に対するパープレキシティの感度、概念的創造性を捉えることができない統語的テンプレートなど、重要な制限を強調します。
さらに、LSM-as-a-Judgeは不安定性とバイアスを示す。
われわれの調査結果は、創造性の人間の判断によく適合する、より堅牢で一般化可能な評価フレームワークの必要性を浮き彫りにした。
関連論文リスト
- Creativity in LLM-based Multi-Agent Systems: A Survey [56.25583236738877]
大規模言語モデル(LLM)によるマルチエージェントシステム(MAS)は、人間とAIが協調してアイデアやアーティファクトを生成する方法を変えつつある。
これはMASにおける創造性に関する最初の調査である。
本研究では,(1)エージェントの能動性やペルソナ設計の分類,(2)分岐探索,反復改良,協調合成などの生成技術の概要,(3)不整合評価基準,不整合性バイアス緩和,協調競合,統一ベンチマークの欠如といった重要な課題について論じる。
論文 参考訳(メタデータ) (2025-05-27T12:36:14Z) - Creative Preference Optimization [13.266256662558822]
複数の創造性次元からの信号をモジュール方式で優先最適化対象に注入する新しいアライメント手法を提案する。
大規模な人選好データセットであるCrPOと MuCE を用いて,創造性向上型モデルをトレーニングし,評価する。
我々のモデルは、自動評価と人的評価の両方において、GPT-4oを含む強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2025-05-20T14:43:41Z) - Cooking Up Creativity: A Cognitively-Inspired Approach for Enhancing LLM Creativity through Structured Representations [53.950760059792614]
大きな言語モデル(LLM)は数え切れないほど多くのタスクで優れていますが、創造性に苦慮しています。
我々は、LLMと構造化表現を結合し、より創造的で多様なアイデアを生み出すために認知的にインスピレーションを与える新しいアプローチを導入する。
我々は、創造的なレシピを生成するモデルであるDishCOVERを用いて、料理分野における我々のアプローチを実証する。
論文 参考訳(メタデータ) (2025-04-29T11:13:06Z) - Probing and Inducing Combinational Creativity in Vision-Language Models [52.76981145923602]
VLM(Vision-Language Models)の最近の進歩は、それらのアウトプットが組合せの創造性を反映しているかという議論を引き起こしている。
本稿では,創造的プロセスを3つのレベルに分解するIEIフレームワークを提案する。
このフレームワークを検証するために、IEIフレームワークに従って注釈付けされた666人のアーティストによる視覚マッシュアップの高品質データセットであるCreativeMashupをキュレートする。
論文 参考訳(メタデータ) (2025-04-17T17:38:18Z) - Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM [58.42678619252968]
Creation-MMBenchはマルチモーダル大言語モデルの創造性を評価するために設計されたベンチマークである。
ベンチマークは、51のきめ細かいタスクにまたがる765のテストケースで構成されている。
実験結果から,オープンソースのMLLMは,クリエイティブタスクにおけるプロプライエタリなモデルに比べて著しく性能が劣っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-03-18T17:51:34Z) - Leveraging Large Models for Evaluating Novel Content: A Case Study on Advertisement Creativity [26.90276644134837]
ビジュアル広告の創造性を非定型性と独創性に分解しようと試みる。
微粒な人間のアノテーションを用いて、このような主観的な問題に特化してタスクのスーツを提案する。
また,提案したベンチマークを用いて,最先端(SoTA)ビジョン言語モデル(VLM)と人間との整合性を評価する。
論文 参考訳(メタデータ) (2025-02-26T04:28:03Z) - A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models [100.16387798660833]
オオギリゲーム(オオギリゲーム)は、ユーモアと連想的思考を必要とする創造的な仕事である。
LoTbenchはインタラクティブで因果性を考慮した評価フレームワークである。
その結果、ほとんどのLLMは制約された創造性を示すが、LLMと人間の間の性能格差は克服できないことがわかった。
論文 参考訳(メタデータ) (2025-01-25T09:11:15Z) - LiveIdeaBench: Evaluating LLMs' Divergent Thinking for Scientific Idea Generation with Minimal Context [13.967898012303325]
我々は,Large Language Modelsの科学的アイデア生成を評価するベンチマークであるLiveIdeaBenchを紹介する。
我々のベンチマークでは、最先端のLCMのダイナミックパネルを用いて、創発性、実現性、流布性、柔軟性、明快さの5つの重要な側面で生成されたアイデアを評価する。
我々の結果は、QwQ-32B-previewのようなモデルが、一般的な知能スコアに大きな差があるにもかかわらず、claude-3.7-sonnet:thinkingのような上位モデルのモデルに匹敵する創造的なパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-12-23T14:13:44Z) - Benchmarking Language Model Creativity: A Case Study on Code Generation [39.546827184857754]
本研究では,LLMの創造性を定量化するフレームワークを提案する。
生成した創造的応答における収束的思考と発散的思考の両方を定量化する計量であるNEOGAUGEを定義する。
我々はCodeforcesの問題に関する提案されたフレームワークをテストする。これは、タスクをコーディングするための自然なデータセットと、先行する人間のソリューションのコレクションの両方に役立ちます。
論文 参考訳(メタデータ) (2024-07-12T05:55:22Z) - Assessing and Understanding Creativity in Large Language Models [33.37237667182931]
本稿では,大規模言語モデル(LLM)における創造性レベルを評価するための効率的な枠組みを確立することを目的とする。
The Torrance Tests of Creative Thinking を用いて、7つのタスクにまたがる様々なLSMの創造的パフォーマンスを評価する。
LLMの創造性は、主に独創性に欠けるが、エラボレーションには優れていた。
論文 参考訳(メタデータ) (2024-01-23T05:19:47Z) - Can AI Be as Creative as Humans? [84.43873277557852]
理論的には、AIは人間の創造者によって生成されたデータに適切に適合できるという条件の下で、人間と同じくらい創造的になれることを証明しています。
AIの創造性に関する議論は、十分な量のデータに適合する能力の問題に縮小されている。
論文 参考訳(メタデータ) (2024-01-03T08:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。