論文の概要: Evaluation Framework for AI Creativity: A Case Study Based on Story Generation
- arxiv url: http://arxiv.org/abs/2601.03698v1
- Date: Wed, 07 Jan 2026 08:31:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.377002
- Title: Evaluation Framework for AI Creativity: A Case Study Based on Story Generation
- Title(参考訳): AI創造性評価フレームワーク:ストーリー生成に基づく事例研究
- Authors: Pharath Sathya, Yin Jou Huang, Fei Cheng,
- Abstract要約: 既存の基準ベースのメトリクスは創造性の主観的な性質を捉えていないため、創造的なテキスト生成を評価することは依然として課題である。
そこで本研究では,AIストーリー生成のための構造化評価フレームワークを提案する。4つのコンポーネント(Novelty,Value,Adherence,Resonance)と11のサブコンポーネントからなる。
Spike Prompting'による制御されたストーリー生成と115人の読者によるクラウドソースによる研究を用いて、創造的要素が即時および反射的な人間の創造的判断の両方をどう形成するかを検討する。
- 参考スコア(独自算出の注目度): 5.536493649574258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating creative text generation remains a challenge because existing reference-based metrics fail to capture the subjective nature of creativity. We propose a structured evaluation framework for AI story generation comprising four components (Novelty, Value, Adherence, and Resonance) and eleven sub-components. Using controlled story generation via ``Spike Prompting'' and a crowdsourced study of 115 readers, we examine how different creative components shape both immediate and reflective human creativity judgments. Our findings show that creativity is evaluated hierarchically rather than cumulatively, with different dimensions becoming salient at different stages of judgment, and that reflective evaluation substantially alters both ratings and inter-rater agreement. Together, these results support the effectiveness of our framework in revealing dimensions of creativity that are obscured by reference-based evaluation.
- Abstract(参考訳): 既存の基準ベースのメトリクスは創造性の主観的な性質を捉えていないため、創造的なテキスト生成を評価することは依然として課題である。
そこで本研究では,AIストーリー生成のための構造化評価フレームワークを提案する。4つのコンポーネント(Novelty,Value,Adherence,Resonance)と11のサブコンポーネントからなる。
本研究では,「スパイク・プロンプティング」による制御されたストーリー生成と115人の読者によるクラウドソースによる研究を用いて,創造的要素が即時および反射的創造的判断の両方を形作るかを検討した。
以上の結果から, 創造性は累積的ではなく階層的に評価され, 異なる判断の段階において, 異なる次元が健全になり, 反射的評価は, レーティングとレータ間合意の両方を著しく変化させることが示唆された。
これらの結果が,基準に基づく評価によって明らかにされていない創造性の次元を明らかにする上で,我々の枠組みの有効性を裏付けるものである。
関連論文リスト
- InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem [87.30601926271864]
InnoEvalは、人間レベルのアイデアアセスメントをエミュレートするために設計された、深いイノベーション評価フレームワークである。
我々は,多様なオンライン情報源から動的証拠を検索し,根拠とする異種深層知識検索エンジンを適用した。
InnoEvalをベンチマークするために、権威あるピアレビューされた提案から派生した包括的なデータセットを構築します。
論文 参考訳(メタデータ) (2026-02-16T00:40:31Z) - Simple Lines, Big Ideas: Towards Interpretable Assessment of Human Creativity from Drawings [18.09092203643732]
図面からの自動的かつ解釈可能な創造性評価のためのデータ駆動型フレームワークを提案する。
6]で提案された認知的エビデンスにより、創造性は、引き出されたもの(コンテンツ)と引き出されたもの(スタイル)の両方から生ずることができ、創造性スコアをこれら2つの相補的な次元の関数として再解釈する。
論文 参考訳(メタデータ) (2025-11-17T02:16:01Z) - CreativityPrism: A Holistic Benchmark for Large Language Model Creativity [64.18257552903151]
創造性はしばしば人間の知能の目印と見なされる。
さまざまなシナリオにまたがってクリエイティビティを評価するための総合的なフレームワークはまだ存在しません。
本稿では,創造性を質,新規性,多様性の3次元に分解する評価分析フレームワークであるCreativePrismを提案する。
論文 参考訳(メタデータ) (2025-10-23T00:22:10Z) - Curiosity-Driven LLM-as-a-judge for Personalized Creative Judgment [4.334576480811837]
本稿では,創造的文章評価のための新しい好奇心駆動型LCM-as-a-judgeを提案する。
本手法は,全アノテータが互いに一致しない主観評価において特に有用である。
論文 参考訳(メタデータ) (2025-10-01T04:29:36Z) - Rethinking Creativity Evaluation: A Critical Analysis of Existing Creativity Evaluations [48.57816792550401]
クリエイティビティ指標,パープレキシティ,構文テンプレート,LCM-as-a-Judgeなどのクリエイティビティ指標について検討した。
分析の結果、これらの指標は限定的な一貫性を示し、創造性の異なる次元を捉えていることがわかった。
論文 参考訳(メタデータ) (2025-08-07T15:11:48Z) - Creativity in LLM-based Multi-Agent Systems: A Survey [56.25583236738877]
大規模言語モデル(LLM)によるマルチエージェントシステム(MAS)は、人間とAIが協調してアイデアやアーティファクトを生成する方法を変えつつある。
これはMASにおける創造性に関する最初の調査である。
本研究では,(1)エージェントの能動性やペルソナ設計の分類,(2)分岐探索,反復改良,協調合成などの生成技術の概要,(3)不整合評価基準,不整合性バイアス緩和,協調競合,統一ベンチマークの欠如といった重要な課題について論じる。
論文 参考訳(メタデータ) (2025-05-27T12:36:14Z) - Probing and Inducing Combinational Creativity in Vision-Language Models [52.76981145923602]
VLM(Vision-Language Models)の最近の進歩は、それらのアウトプットが組合せの創造性を反映しているかという議論を引き起こしている。
本稿では,創造的プロセスを3つのレベルに分解するIEIフレームワークを提案する。
このフレームワークを検証するために、IEIフレームワークに従って注釈付けされた666人のアーティストによる視覚マッシュアップの高品質データセットであるCreativeMashupをキュレートする。
論文 参考訳(メタデータ) (2025-04-17T17:38:18Z) - Thinking Outside the (Gray) Box: A Context-Based Score for Assessing Value and Originality in Neural Text Generation [5.734448042909701]
創造的なタスクのための大きな言語モデルは、しばしば多様性を欠いている。
高温でのサンプリングのような一般的なソリューションは、結果の品質を損なう可能性がある。
価値と独創性を定量的に評価する文脈に基づくスコアを提案する。
論文 参考訳(メタデータ) (2025-02-18T19:00:01Z) - Can AI Be as Creative as Humans? [84.43873277557852]
理論的には、AIは人間の創造者によって生成されたデータに適切に適合できるという条件の下で、人間と同じくらい創造的になれることを証明しています。
AIの創造性に関する議論は、十分な量のデータに適合する能力の問題に縮小されている。
論文 参考訳(メタデータ) (2024-01-03T08:49:12Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。