論文の概要: Evaluation Framework for AI Creativity: A Case Study Based on Story Generation
- arxiv url: http://arxiv.org/abs/2601.03698v1
- Date: Wed, 07 Jan 2026 08:31:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.377002
- Title: Evaluation Framework for AI Creativity: A Case Study Based on Story Generation
- Title(参考訳): AI創造性評価フレームワーク:ストーリー生成に基づく事例研究
- Authors: Pharath Sathya, Yin Jou Huang, Fei Cheng,
- Abstract要約: 既存の基準ベースのメトリクスは創造性の主観的な性質を捉えていないため、創造的なテキスト生成を評価することは依然として課題である。
そこで本研究では,AIストーリー生成のための構造化評価フレームワークを提案する。4つのコンポーネント(Novelty,Value,Adherence,Resonance)と11のサブコンポーネントからなる。
Spike Prompting'による制御されたストーリー生成と115人の読者によるクラウドソースによる研究を用いて、創造的要素が即時および反射的な人間の創造的判断の両方をどう形成するかを検討する。
- 参考スコア(独自算出の注目度): 5.536493649574258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating creative text generation remains a challenge because existing reference-based metrics fail to capture the subjective nature of creativity. We propose a structured evaluation framework for AI story generation comprising four components (Novelty, Value, Adherence, and Resonance) and eleven sub-components. Using controlled story generation via ``Spike Prompting'' and a crowdsourced study of 115 readers, we examine how different creative components shape both immediate and reflective human creativity judgments. Our findings show that creativity is evaluated hierarchically rather than cumulatively, with different dimensions becoming salient at different stages of judgment, and that reflective evaluation substantially alters both ratings and inter-rater agreement. Together, these results support the effectiveness of our framework in revealing dimensions of creativity that are obscured by reference-based evaluation.
- Abstract(参考訳): 既存の基準ベースのメトリクスは創造性の主観的な性質を捉えていないため、創造的なテキスト生成を評価することは依然として課題である。
そこで本研究では,AIストーリー生成のための構造化評価フレームワークを提案する。4つのコンポーネント(Novelty,Value,Adherence,Resonance)と11のサブコンポーネントからなる。
本研究では,「スパイク・プロンプティング」による制御されたストーリー生成と115人の読者によるクラウドソースによる研究を用いて,創造的要素が即時および反射的創造的判断の両方を形作るかを検討した。
以上の結果から, 創造性は累積的ではなく階層的に評価され, 異なる判断の段階において, 異なる次元が健全になり, 反射的評価は, レーティングとレータ間合意の両方を著しく変化させることが示唆された。
これらの結果が,基準に基づく評価によって明らかにされていない創造性の次元を明らかにする上で,我々の枠組みの有効性を裏付けるものである。
関連論文リスト
- Simple Lines, Big Ideas: Towards Interpretable Assessment of Human Creativity from Drawings [18.09092203643732]
図面からの自動的かつ解釈可能な創造性評価のためのデータ駆動型フレームワークを提案する。
6]で提案された認知的エビデンスにより、創造性は、引き出されたもの(コンテンツ)と引き出されたもの(スタイル)の両方から生ずることができ、創造性スコアをこれら2つの相補的な次元の関数として再解釈する。
論文 参考訳(メタデータ) (2025-11-17T02:16:01Z) - CreativityPrism: A Holistic Benchmark for Large Language Model Creativity [64.18257552903151]
創造性はしばしば人間の知能の目印と見なされる。
さまざまなシナリオにまたがってクリエイティビティを評価するための総合的なフレームワークはまだ存在しません。
本稿では,創造性を質,新規性,多様性の3次元に分解する評価分析フレームワークであるCreativePrismを提案する。
論文 参考訳(メタデータ) (2025-10-23T00:22:10Z) - Rethinking Creativity Evaluation: A Critical Analysis of Existing Creativity Evaluations [48.57816792550401]
クリエイティビティ指標,パープレキシティ,構文テンプレート,LCM-as-a-Judgeなどのクリエイティビティ指標について検討した。
分析の結果、これらの指標は限定的な一貫性を示し、創造性の異なる次元を捉えていることがわかった。
論文 参考訳(メタデータ) (2025-08-07T15:11:48Z) - Creativity in LLM-based Multi-Agent Systems: A Survey [56.25583236738877]
大規模言語モデル(LLM)によるマルチエージェントシステム(MAS)は、人間とAIが協調してアイデアやアーティファクトを生成する方法を変えつつある。
これはMASにおける創造性に関する最初の調査である。
本研究では,(1)エージェントの能動性やペルソナ設計の分類,(2)分岐探索,反復改良,協調合成などの生成技術の概要,(3)不整合評価基準,不整合性バイアス緩和,協調競合,統一ベンチマークの欠如といった重要な課題について論じる。
論文 参考訳(メタデータ) (2025-05-27T12:36:14Z) - Thinking Outside the (Gray) Box: A Context-Based Score for Assessing Value and Originality in Neural Text Generation [5.734448042909701]
創造的なタスクのための大きな言語モデルは、しばしば多様性を欠いている。
高温でのサンプリングのような一般的なソリューションは、結果の品質を損なう可能性がある。
価値と独創性を定量的に評価する文脈に基づくスコアを提案する。
論文 参考訳(メタデータ) (2025-02-18T19:00:01Z) - Can AI Be as Creative as Humans? [84.43873277557852]
理論的には、AIは人間の創造者によって生成されたデータに適切に適合できるという条件の下で、人間と同じくらい創造的になれることを証明しています。
AIの創造性に関する議論は、十分な量のデータに適合する能力の問題に縮小されている。
論文 参考訳(メタデータ) (2024-01-03T08:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。