論文の概要: Assessing and Understanding Creativity in Large Language Models
- arxiv url: http://arxiv.org/abs/2401.12491v1
- Date: Tue, 23 Jan 2024 05:19:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 16:40:43.704763
- Title: Assessing and Understanding Creativity in Large Language Models
- Title(参考訳): 大規模言語モデルにおける創造性の評価と理解
- Authors: Yunpu Zhao, Rui Zhang, Wenyi Li, Di Huang, Jiaming Guo, Shaohui Peng,
Yifan Hao, Yuanbo Wen, Xing Hu, Zidong Du, Qi Guo, Ling Li and Yunji Chen
- Abstract要約: 本稿では,大規模言語モデル(LLM)における創造性レベルを評価するための効率的な枠組みを確立することを目的とする。
The Torrance Tests of Creative Thinking を用いて、7つのタスクにまたがる様々なLSMの創造的パフォーマンスを評価する。
LLMの創造性は、主に独創性に欠けるが、エラボレーションには優れていた。
- 参考スコア(独自算出の注目度): 33.37237667182931
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of natural language processing, the rapid development of large
language model (LLM) has attracted more and more attention. LLMs have shown a
high level of creativity in various tasks, but the methods for assessing such
creativity are inadequate. The assessment of LLM creativity needs to consider
differences from humans, requiring multi-dimensional measurement while
balancing accuracy and efficiency. This paper aims to establish an efficient
framework for assessing the level of creativity in LLMs. By adapting the
modified Torrance Tests of Creative Thinking, the research evaluates the
creative performance of various LLMs across 7 tasks, emphasizing 4 criteria
including Fluency, Flexibility, Originality, and Elaboration. In this context,
we develop a comprehensive dataset of 700 questions for testing and an
LLM-based evaluation method. In addition, this study presents a novel analysis
of LLMs' responses to diverse prompts and role-play situations. We found that
the creativity of LLMs primarily falls short in originality, while excelling in
elaboration. Besides, the use of prompts and the role-play settings of the
model significantly influence creativity. Additionally, the experimental
results also indicate that collaboration among multiple LLMs can enhance
originality. Notably, our findings reveal a consensus between human evaluations
and LLMs regarding the personality traits that influence creativity. The
findings underscore the significant impact of LLM design on creativity and
bridges artificial intelligence and human creativity, offering insights into
LLMs' creativity and potential applications.
- Abstract(参考訳): 自然言語処理の分野では,大規模言語モデル(LLM)の急速な発展が注目されている。
LLMは様々なタスクにおいて高い創造性を示してきたが、そのような創造性を評価する方法は不十分である。
LLMの創造性の評価は人間との違いを考慮し、精度と効率のバランスを保ちながら多次元計測を必要とする。
本稿では,LLMの創造性を評価するための効率的な枠組みを確立することを目的とする。
修正された創造的思考のTorrance Testsを適用することで、7つのタスクにまたがる様々なLLMの創造的パフォーマンスを評価し、Fluency、Flexibility、Originality、Elaborationの4つの基準を強調した。
そこで本研究では,700質問の総合的データセットとLCMに基づく評価手法を開発した。
さらに, 多様なプロンプトやロールプレイ状況に対するLSMsの反応について, 新たな分析を行った。
LLMの創造性は、主に独創性に欠けるが、エラボレートには優れていた。
さらに、プロンプトの使用とモデルのロールプレイ設定はクリエイティビティに大きな影響を与えます。
さらに, 実験結果から, 複数のLDM間の協調により, 独創性が向上することが示唆された。
特に, 創造性に影響を及ぼす性格特性について, 人間の評価とLCMのコンセンサスを明らかにした。
この発見は、LLMの設計が創造性に重大な影響を与え、人工知能と人間の創造性を橋渡しし、LLMの創造性と潜在的な応用に関する洞察を提供する。
関連論文リスト
- Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts [10.929547354171723]
本稿では,言語モデルロールアウト(KALM)の知識エージェントを紹介する。
大規模言語モデル(LLM)から、オフラインの強化学習手法によってエージェントが容易に学習できる想像上のロールアウトの形で知識を抽出する。
未確認の目標を持つタスクの実行において46%の成功率を達成し、ベースラインメソッドによって達成された26%の成功率を大幅に上回る。
論文 参考訳(メタデータ) (2024-04-14T13:19:40Z) - CreativEval: Evaluating Creativity of LLM-Based Hardware Code Generation [4.664950672096393]
大規模言語モデル(LLM)は、コードを生成するのに効果的で効率的であることが証明されている。
CreativeEvalは、ハードウェア設計を作成するコンテキストにおけるLCMの創造性を評価するためのフレームワークである。
論文 参考訳(メタデータ) (2024-04-12T20:41:47Z) - CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge [69.82940934994333]
我々は、人間とAIのコラボレーションを活用して、挑戦的な評価データセットを構築するインタラクティブなレッドチームシステムであるCulturalTeamingを紹介する。
我々の研究は、CulturalTeamingの様々なAI支援モードが、文化的な質問の作成においてアノテータを支援することを明らかにした。
CULTURALBENCH-V0.1は、ユーザのリピートの試みにより、コンパクトだが高品質な評価データセットである。
論文 参考訳(メタデータ) (2024-04-10T00:25:09Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [113.72984199026094]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
生成モデルのカウンターファクトの能力を効果的に評価するために,革新的な評価指標であるLogicAware Counterfactual Scoreを提案する。
分析の結果,提案手法は人間の好みとよく一致していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z) - User-Controlled Knowledge Fusion in Large Language Models: Balancing
Creativity and Hallucination [5.046007553593371]
大規模言語モデル(LLM)は多様な、関連性があり、創造的な応答を生成する。
LLMの想像力と事実情報への固執のバランスを取ることは重要な課題である。
本稿では,LLMの想像能力と現実情報への忠実さのバランスを調節する,革新的なユーザ制御機構を提案する。
論文 参考訳(メタデータ) (2023-07-30T06:06:35Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - On the Creativity of Large Language Models [2.5426469613007012]
大規模言語モデル(LLM)は、人工知能のいくつかの領域に革命をもたらしている。
本稿では、まず、創造性理論のレンズ下でのLCMの開発について分析する。
次に、製品、プロセス、プレス、人といった古典的な視点について考察する。
最後に、創造産業に焦点をあてて、これらの技術の社会的影響について検討する。
論文 参考訳(メタデータ) (2023-03-27T18:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。