論文の概要: The creative psychometric item generator: a framework for item generation and validation using large language models
- arxiv url: http://arxiv.org/abs/2409.00202v1
- Date: Fri, 30 Aug 2024 18:31:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 16:37:47.866641
- Title: The creative psychometric item generator: a framework for item generation and validation using large language models
- Title(参考訳): クリエイティブ・サイコメトリック・アイテムジェネレータ:大規模言語モデルを用いたアイテム生成と検証のためのフレームワーク
- Authors: Antonio Laverghetta Jr., Simone Luchini, Averie Linell, Roni Reiter-Palmon, Roger Beaty,
- Abstract要約: 大規模な言語モデル(LLM)は、高い創造性を必要とする職場プロセスを自動化するために使われています。
我々は,創造的問題解決(CPS)タスクという,古典的な自由応答性創造性テストのためのテスト項目を作成するための心理的にインスパイアされたフレームワークを開発する。
CPIGが有効かつ信頼性の高い項目を生成し、この効果が評価過程における既知のバイアスに寄与しないという強い実証的証拠が得られた。
- 参考スコア(独自算出の注目度): 1.765099515298011
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Increasingly, large language models (LLMs) are being used to automate workplace processes requiring a high degree of creativity. While much prior work has examined the creativity of LLMs, there has been little research on whether they can generate valid creativity assessments for humans despite the increasingly central role of creativity in modern economies. We develop a psychometrically inspired framework for creating test items (questions) for a classic free-response creativity test: the creative problem-solving (CPS) task. Our framework, the creative psychometric item generator (CPIG), uses a mixture of LLM-based item generators and evaluators to iteratively develop new prompts for writing CPS items, such that items from later iterations will elicit more creative responses from test takers. We find strong empirical evidence that CPIG generates valid and reliable items and that this effect is not attributable to known biases in the evaluation process. Our findings have implications for employing LLMs to automatically generate valid and reliable creativity tests for humans and AI.
- Abstract(参考訳): 大規模言語モデル(LLM)は、高い創造性を必要とする職場プロセスを自動化するために、ますます使われています。
LLMの創造性について多くの先行研究が行われてきたが、現代経済における創造性の中心的役割にもかかわらず、人間にとって有効な創造性評価を作成できるかどうかについてはほとんど研究されていない。
我々は,創造的問題解決(CPS)タスクという,古典的な自由責任な創造性テストのための,テスト項目(クエスト)を作成するための心理的にインスパイアされたフレームワークを開発する。
我々のフレームワークであるクリエイティブ・サイコメトリック・アイテムジェネレータ(CPIG)は、LCMベースのアイテムジェネレータと評価器を組み合わせて、CPSアイテムを書くための新しいプロンプトを反復的に作成する。
CPIGが有効かつ信頼性の高い項目を生成し、この効果が評価過程における既知のバイアスに寄与しないという強い実証的証拠が得られた。
我々の発見は、人間とAIのための有効で信頼性の高いクリエイティビティテストを自動的に生成するためにLLMを使うことに影響を及ぼす。
関連論文リスト
- A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models [100.16387798660833]
オオギリゲーム(オオギリゲーム)は、ユーモアと連想的思考を必要とする創造的な仕事である。
LoTbenchはインタラクティブで因果性を考慮した評価フレームワークである。
その結果、ほとんどのLLMは制約された創造性を示すが、LLMと人間の間の性能格差は克服できないことがわかった。
論文 参考訳(メタデータ) (2025-01-25T09:11:15Z) - A Framework for Collaborating a Large Language Model Tool in Brainstorming for Triggering Creative Thoughts [2.709166684084394]
本研究は, 設計者に対して, ブレインストーミング時のアイデアの創造性向上のために, LLMツールで体系的に作業するための目標, プロンプト, 戦略を取り入れたGPSというフレームワークを提案する。
設計事例とケーススタディを通じてテストした本フレームワークは,創造性を刺激する効果と,設計プラクティスへのLCMツールのシームレスな統合を実証する。
論文 参考訳(メタデータ) (2024-10-10T13:39:27Z) - Initial Development and Evaluation of the Creative Artificial Intelligence through Recurring Developments and Determinations (CAIRDD) System [0.0]
大型言語モデル (LLMs) は創造性と感覚の出現のファクシミリを提供するが、実際は創造的でも知覚的でもない。
本稿では,概念注入・精錬の反復的プロセスを通じてLCM出力の創造性を向上する手法を提案する。
論文 参考訳(メタデータ) (2024-09-03T21:04:07Z) - Benchmarking Language Model Creativity: A Case Study on Code Generation [39.546827184857754]
本研究では,LLMの創造性を定量化するフレームワークを提案する。
生成した創造的応答における収束的思考と発散的思考の両方を定量化する計量であるNEOGAUGEを定義する。
我々はCodeforcesの問題に関する提案されたフレームワークをテストする。これは、タスクをコーディングするための自然なデータセットと、先行する人間のソリューションのコレクションの両方に役立ちます。
論文 参考訳(メタデータ) (2024-07-12T05:55:22Z) - CreativEval: Evaluating Creativity of LLM-Based Hardware Code Generation [4.664950672096393]
大規模言語モデル(LLM)は、コードを生成するのに効果的で効率的であることが証明されている。
CreativeEvalは、ハードウェア設計を作成するコンテキストにおけるLCMの創造性を評価するためのフレームワークである。
論文 参考訳(メタデータ) (2024-04-12T20:41:47Z) - ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.08917291606421]
ResearchAgentは、新しい作品のアイデアと運用のためのAIベースのシステムである。
ResearchAgentは、新しい問題を自動で定義し、手法と設計実験を提案し、繰り返し修正する。
我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文 参考訳(メタデータ) (2024-04-11T13:36:29Z) - Assessing and Understanding Creativity in Large Language Models [33.37237667182931]
本稿では,大規模言語モデル(LLM)における創造性レベルを評価するための効率的な枠組みを確立することを目的とする。
The Torrance Tests of Creative Thinking を用いて、7つのタスクにまたがる様々なLSMの創造的パフォーマンスを評価する。
LLMの創造性は、主に独創性に欠けるが、エラボレーションには優れていた。
論文 参考訳(メタデータ) (2024-01-23T05:19:47Z) - Art or Artifice? Large Language Models and the False Promise of
Creativity [53.04834589006685]
本稿では,創造性を製品として評価するTorrance Test of Creative Writing (TTCW)を提案する。
TTCWは14のバイナリテストで構成されており、Fluency、Flexibility、Originality、Elaborationの3次元に分かれている。
分析の結果,LPM生成したストーリーはプロのストーリーよりもTTCWが3~10倍少ないことが判明した。
論文 参考訳(メタデータ) (2023-09-25T22:02:46Z) - CRITIC: Large Language Models Can Self-Correct with Tool-Interactive
Critiquing [139.77117915309023]
CRITICは、大規模な言語モデルに対して、ツールとのヒューマンインタラクションに似た方法で、自分たちのアウトプットの検証と修正を可能にする。
自由形式の質問応答、数学的プログラム合成、毒性低減を含む包括的評価は、CRITICがLLMの性能を一貫して向上することを証明している。
論文 参考訳(メタデータ) (2023-05-19T15:19:44Z) - Towards Creativity Characterization of Generative Models via Group-based
Subset Scanning [64.6217849133164]
創造的プロセスを特定し,定量化し,特徴付けるグループベースサブセットスキャンを提案する。
創造的なサンプルは、データセット全体にわたる通常のサンプルや非創造的なサンプルよりも大きな異常のサブセットを生成する。
論文 参考訳(メタデータ) (2022-03-01T15:07:14Z) - Towards creativity characterization of generative models via group-based
subset scanning [51.84144826134919]
創造的プロセスを定量化し,検出し,特徴付けるグループベースサブセットスキャンを提案する。
創造的なサンプルは、データセットをまたいだ通常または非創造的なサンプルよりも大きな異常のサブセットを生成する。
論文 参考訳(メタデータ) (2021-04-01T14:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。