論文の概要: Deep Associations, High Creativity: A Simple yet Effective Metric for Evaluating Large Language Models
- arxiv url: http://arxiv.org/abs/2510.12110v1
- Date: Tue, 14 Oct 2025 03:26:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.1713
- Title: Deep Associations, High Creativity: A Simple yet Effective Metric for Evaluating Large Language Models
- Title(参考訳): ディープアソシエーションと高い創造性 - 大きな言語モデルを評価するためのシンプルで効果的なメトリクス
- Authors: Ziliang Qiu, Renfen Hu,
- Abstract要約: PACEを提案し,LLMに対して,その創造性を評価するためのアソシエーション・チェーンの創出を依頼する。
PACEはデータ汚染のリスクを最小限に抑え、単純で高効率な評価を提供する。
- 参考スコア(独自算出の注目度): 0.3580891736370874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evaluation of LLMs' creativity represents a crucial research domain, though challenges such as data contamination and costly human assessments often impede progress. Drawing inspiration from human creativity assessment, we propose PACE, asking LLMs to generate Parallel Association Chains to Evaluate their creativity. PACE minimizes the risk of data contamination and offers a straightforward, highly efficient evaluation, as evidenced by its strong correlation with Chatbot Arena Creative Writing rankings (Spearman's $\rho = 0.739$, $p < 0.001$) across various proprietary and open-source models. A comparative analysis of associative creativity between LLMs and humans reveals that while high-performing LLMs achieve scores comparable to average human performance, professional humans consistently outperform LLMs. Furthermore, linguistic analysis reveals that both humans and LLMs exhibit a trend of decreasing concreteness in their associations, and humans demonstrating a greater diversity of associative patterns.
- Abstract(参考訳): LLMの創造性の評価は重要な研究領域であるが、データ汚染やコストのかかる人的評価といった課題はしばしば進歩を妨げる。
人間の創造性評価からインスピレーションを得た上で,我々はPLMに創造性を評価するための並列アソシエーション・チェーンを創出するよう依頼する。
PACE はデータ汚染のリスクを最小限に抑え、Chatbot Arena Creative Writing Ranks (Spearman's $\rho = 0.739$, $p < 0.001$) との強い相関によって証明されているように、単純で効率的な評価を提供する。
LLMと人間間の連想的創造性の比較分析により、高い性能のLLMは平均的な人間のパフォーマンスに匹敵するスコアを得られる一方で、プロの人間はLLMよりも一貫して優れていることが明らかになった。
さらに、言語学的分析により、人間とLLMは関連性において具体性が低下する傾向を示し、人間はより多様な連想パターンを示すことが明らかとなった。
関連論文リスト
- A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models [100.16387798660833]
オオギリゲーム(オオギリゲーム)は、ユーモアと連想的思考を必要とする創造的な仕事である。
LoTbenchはインタラクティブで因果性を考慮した評価フレームワークである。
その結果、ほとんどのLLMは制約された創造性を示すが、LLMと人間の間の性能格差は克服できないことがわかった。
論文 参考訳(メタデータ) (2025-01-25T09:11:15Z) - Divergent Creativity in Humans and Large Language Models [37.67363469600804]
大きな言語モデル(LLM)は、人間の能力に似た創造性レベルに近づいていると主張している。
我々は最近の計算創造性の進歩を利用して、最先端のLLMと10万人の人間のデータセットのセマンティックな相違を分析する。
我々は, LLMがダイバージェント・アソシエーション・タスクにおいて, 平均的人的パフォーマンスを上回り, 人間の創造的筆記能力にアプローチできる証拠を見出した。
論文 参考訳(メタデータ) (2024-05-13T22:37:52Z) - Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - Assessing and Understanding Creativity in Large Language Models [33.37237667182931]
本稿では,大規模言語モデル(LLM)における創造性レベルを評価するための効率的な枠組みを確立することを目的とする。
The Torrance Tests of Creative Thinking を用いて、7つのタスクにまたがる様々なLSMの創造的パフォーマンスを評価する。
LLMの創造性は、主に独創性に欠けるが、エラボレーションには優れていた。
論文 参考訳(メタデータ) (2024-01-23T05:19:47Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。