論文の概要: Assessing and Understanding Creativity in Large Language Models
- arxiv url: http://arxiv.org/abs/2401.12491v1
- Date: Tue, 23 Jan 2024 05:19:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 16:40:43.704763
- Title: Assessing and Understanding Creativity in Large Language Models
- Title(参考訳): 大規模言語モデルにおける創造性の評価と理解
- Authors: Yunpu Zhao, Rui Zhang, Wenyi Li, Di Huang, Jiaming Guo, Shaohui Peng,
Yifan Hao, Yuanbo Wen, Xing Hu, Zidong Du, Qi Guo, Ling Li and Yunji Chen
- Abstract要約: 本稿では,大規模言語モデル(LLM)における創造性レベルを評価するための効率的な枠組みを確立することを目的とする。
The Torrance Tests of Creative Thinking を用いて、7つのタスクにまたがる様々なLSMの創造的パフォーマンスを評価する。
LLMの創造性は、主に独創性に欠けるが、エラボレーションには優れていた。
- 参考スコア(独自算出の注目度): 33.37237667182931
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of natural language processing, the rapid development of large
language model (LLM) has attracted more and more attention. LLMs have shown a
high level of creativity in various tasks, but the methods for assessing such
creativity are inadequate. The assessment of LLM creativity needs to consider
differences from humans, requiring multi-dimensional measurement while
balancing accuracy and efficiency. This paper aims to establish an efficient
framework for assessing the level of creativity in LLMs. By adapting the
modified Torrance Tests of Creative Thinking, the research evaluates the
creative performance of various LLMs across 7 tasks, emphasizing 4 criteria
including Fluency, Flexibility, Originality, and Elaboration. In this context,
we develop a comprehensive dataset of 700 questions for testing and an
LLM-based evaluation method. In addition, this study presents a novel analysis
of LLMs' responses to diverse prompts and role-play situations. We found that
the creativity of LLMs primarily falls short in originality, while excelling in
elaboration. Besides, the use of prompts and the role-play settings of the
model significantly influence creativity. Additionally, the experimental
results also indicate that collaboration among multiple LLMs can enhance
originality. Notably, our findings reveal a consensus between human evaluations
and LLMs regarding the personality traits that influence creativity. The
findings underscore the significant impact of LLM design on creativity and
bridges artificial intelligence and human creativity, offering insights into
LLMs' creativity and potential applications.
- Abstract(参考訳): 自然言語処理の分野では,大規模言語モデル(LLM)の急速な発展が注目されている。
LLMは様々なタスクにおいて高い創造性を示してきたが、そのような創造性を評価する方法は不十分である。
LLMの創造性の評価は人間との違いを考慮し、精度と効率のバランスを保ちながら多次元計測を必要とする。
本稿では,LLMの創造性を評価するための効率的な枠組みを確立することを目的とする。
修正された創造的思考のTorrance Testsを適用することで、7つのタスクにまたがる様々なLLMの創造的パフォーマンスを評価し、Fluency、Flexibility、Originality、Elaborationの4つの基準を強調した。
そこで本研究では,700質問の総合的データセットとLCMに基づく評価手法を開発した。
さらに, 多様なプロンプトやロールプレイ状況に対するLSMsの反応について, 新たな分析を行った。
LLMの創造性は、主に独創性に欠けるが、エラボレートには優れていた。
さらに、プロンプトの使用とモデルのロールプレイ設定はクリエイティビティに大きな影響を与えます。
さらに, 実験結果から, 複数のLDM間の協調により, 独創性が向上することが示唆された。
特に, 創造性に影響を及ぼす性格特性について, 人間の評価とLCMのコンセンサスを明らかにした。
この発見は、LLMの設計が創造性に重大な影響を与え、人工知能と人間の創造性を橋渡しし、LLMの創造性と潜在的な応用に関する洞察を提供する。
関連論文リスト
- Do LLMs Agree on the Creativity Evaluation of Alternative Uses? [0.4326762849037007]
本稿では,大規模言語モデル (LLM) が,代替利用テスト (AUT) への対応において,創造性を評価することに合意しているかどうかを検討する。
AUT応答のオラクルベンチマークセットを用いて、これらの出力を評価する4つの最先端LCMを実験した。
その結果、モデル間の高い合意が示され、スピアマンの相関はモデル全体で0.7以上、オラクルに関して0.77以上に達している。
論文 参考訳(メタデータ) (2024-11-23T13:34:50Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。
我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。
デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文 参考訳(メタデータ) (2024-08-17T11:49:53Z) - Divergent Creativity in Humans and Large Language Models [37.67363469600804]
最近の大規模言語モデルの能力の急上昇は、人間の能力に似た創造性レベルに近づいている、という主張につながっている。
我々は、創造科学の最近の進歩を活用して、最先端のLLMと10万人の実質的なデータセットの両方において、多様な創造性を詳細に分析するためのフレームワークを構築します。
論文 参考訳(メタデータ) (2024-05-13T22:37:52Z) - LLM Discussion: Enhancing the Creativity of Large Language Models via Discussion Framework and Role-Play [43.55248812883912]
大規模言語モデル(LLM)は自然言語処理において例外的な習熟度を示してきたが、しばしばオープンエンドの質問に対する創造的で独創的な応答を生成できない。
LLM議論は,アイデア交換の活発化と多様化を促進する3段階の議論フレームワークである。
提案手法の有効性を, 代替利用テスト, 類似性テスト, インスタンステスト, 科学的創造性テストを用いて評価した。
論文 参考訳(メタデータ) (2024-05-10T10:19:14Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - User-Controlled Knowledge Fusion in Large Language Models: Balancing
Creativity and Hallucination [5.046007553593371]
大規模言語モデル(LLM)は多様な、関連性があり、創造的な応答を生成する。
LLMの想像力と事実情報への固執のバランスを取ることは重要な課題である。
本稿では,LLMの想像能力と現実情報への忠実さのバランスを調節する,革新的なユーザ制御機構を提案する。
論文 参考訳(メタデータ) (2023-07-30T06:06:35Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。