Fugu-MT 論文翻訳(概要): The creative psychometric item generator: a framework for item generation and validation using large language models

論文の概要: The creative psychometric item generator: a framework for item generation and validation using large language models

arxiv url: http://arxiv.org/abs/2409.00202v1
Date: Fri, 30 Aug 2024 18:31:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 16:37:47.866641
Title: The creative psychometric item generator: a framework for item generation and validation using large language models
Title（参考訳）: クリエイティブ・サイコメトリック・アイテムジェネレータ:大規模言語モデルを用いたアイテム生成と検証のためのフレームワーク
Authors: Antonio Laverghetta Jr., Simone Luchini, Averie Linell, Roni Reiter-Palmon, Roger Beaty,
Abstract要約: 大規模な言語モデル(LLM)は、高い創造性を必要とする職場プロセスを自動化するために使われています。我々は,創造的問題解決(CPS)タスクという,古典的な自由応答性創造性テストのためのテスト項目を作成するための心理的にインスパイアされたフレームワークを開発する。 CPIGが有効かつ信頼性の高い項目を生成し、この効果が評価過程における既知のバイアスに寄与しないという強い実証的証拠が得られた。
参考スコア（独自算出の注目度）: 1.765099515298011
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Increasingly, large language models (LLMs) are being used to automate workplace processes requiring a high degree of creativity. While much prior work has examined the creativity of LLMs, there has been little research on whether they can generate valid creativity assessments for humans despite the increasingly central role of creativity in modern economies. We develop a psychometrically inspired framework for creating test items (questions) for a classic free-response creativity test: the creative problem-solving (CPS) task. Our framework, the creative psychometric item generator (CPIG), uses a mixture of LLM-based item generators and evaluators to iteratively develop new prompts for writing CPS items, such that items from later iterations will elicit more creative responses from test takers. We find strong empirical evidence that CPIG generates valid and reliable items and that this effect is not attributable to known biases in the evaluation process. Our findings have implications for employing LLMs to automatically generate valid and reliable creativity tests for humans and AI.
Abstract（参考訳）: 大規模言語モデル(LLM)は、高い創造性を必要とする職場プロセスを自動化するために、ますます使われています。 LLMの創造性について多くの先行研究が行われてきたが、現代経済における創造性の中心的役割にもかかわらず、人間にとって有効な創造性評価を作成できるかどうかについてはほとんど研究されていない。我々は,創造的問題解決(CPS)タスクという,古典的な自由責任な創造性テストのための,テスト項目(クエスト)を作成するための心理的にインスパイアされたフレームワークを開発する。我々のフレームワークであるクリエイティブ・サイコメトリック・アイテムジェネレータ(CPIG)は、LCMベースのアイテムジェネレータと評価器を組み合わせて、CPSアイテムを書くための新しいプロンプトを反復的に作成する。 CPIGが有効かつ信頼性の高い項目を生成し、この効果が評価過程における既知のバイアスに寄与しないという強い実証的証拠が得られた。我々の発見は、人間とAIのための有効で信頼性の高いクリエイティビティテストを自動的に生成するためにLLMを使うことに影響を及ぼす。

関連論文リスト

Probing and Inducing Combinational Creativity in Vision-Language Models [52.76981145923602]
VLM(Vision-Language Models)の最近の進歩は、それらのアウトプットが組合せの創造性を反映しているかという議論を引き起こしている。本稿では,創造的プロセスを3つのレベルに分解するIEIフレームワークを提案する。このフレームワークを検証するために、IEIフレームワークに従って注釈付けされた666人のアーティストによる視覚マッシュアップの高品質データセットであるCreativeMashupをキュレートする。
論文参考訳（メタデータ） (2025-04-17T17:38:18Z)
Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM [58.42678619252968]
Creation-MMBenchはマルチモーダル大言語モデルの創造性を評価するために設計されたベンチマークである。ベンチマークは、51のきめ細かいタスクにまたがる765のテストケースで構成されている。実験結果から,オープンソースのMLLMは,クリエイティブタスクにおけるプロプライエタリなモデルに比べて著しく性能が劣っていることが明らかとなった。
論文参考訳（メタデータ） (2025-03-18T17:51:34Z)
A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models [100.16387798660833]
オオギリゲーム(オオギリゲーム)は、ユーモアと連想的思考を必要とする創造的な仕事である。 LoTbenchはインタラクティブで因果性を考慮した評価フレームワークである。その結果、ほとんどのLLMは制約された創造性を示すが、LLMと人間の間の性能格差は克服できないことがわかった。
論文参考訳（メタデータ） (2025-01-25T09:11:15Z)
The Dynamic Creativity of Proto-artifacts in Generative Computational Co-creation [0.22940141855172028]
本稿では,計算共創過程において生成する中間人工物の創造性を決定するのに必要な属性について検討する。新エレクトロニック・アシスタント(NEA)による未完成曲の聴取実験その結果, 成果物の価値と新規性に基づく2つの属性定義が, 革新的製品に繋がる未完成の作業を評価するのに十分であることが判明した。
論文参考訳（メタデータ） (2024-11-25T20:44:33Z)
A Framework for Collaborating a Large Language Model Tool in Brainstorming for Triggering Creative Thoughts [2.709166684084394]
本研究は, 設計者に対して, ブレインストーミング時のアイデアの創造性向上のために, LLMツールで体系的に作業するための目標, プロンプト, 戦略を取り入れたGPSというフレームワークを提案する。設計事例とケーススタディを通じてテストした本フレームワークは,創造性を刺激する効果と,設計プラクティスへのLCMツールのシームレスな統合を実証する。
論文参考訳（メタデータ） (2024-10-10T13:39:27Z)
Initial Development and Evaluation of the Creative Artificial Intelligence through Recurring Developments and Determinations (CAIRDD) System [0.0]
大型言語モデル (LLMs) は創造性と感覚の出現のファクシミリを提供するが、実際は創造的でも知覚的でもない。本稿では,概念注入・精錬の反復的プロセスを通じてLCM出力の創造性を向上する手法を提案する。
論文参考訳（メタデータ） (2024-09-03T21:04:07Z)
Benchmarking Language Model Creativity: A Case Study on Code Generation [39.546827184857754]
本研究では,LLMの創造性を定量化するフレームワークを提案する。生成した創造的応答における収束的思考と発散的思考の両方を定量化する計量であるNEOGAUGEを定義する。我々はCodeforcesの問題に関する提案されたフレームワークをテストする。これは、タスクをコーディングするための自然なデータセットと、先行する人間のソリューションのコレクションの両方に役立ちます。
論文参考訳（メタデータ） (2024-07-12T05:55:22Z)
CreativEval: Evaluating Creativity of LLM-Based Hardware Code Generation [4.664950672096393]
大規模言語モデル(LLM)は、コードを生成するのに効果的で効率的であることが証明されている。 CreativeEvalは、ハードウェア設計を作成するコンテキストにおけるLCMの創造性を評価するためのフレームワークである。
論文参考訳（メタデータ） (2024-04-12T20:41:47Z)
ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.08917291606421]
ResearchAgentは、大規模言語モデルによる研究アイデア作成エージェントである。科学文献に基づいて繰り返し精製しながら、問題、方法、実験設計を生成する。我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文参考訳（メタデータ） (2024-04-11T13:36:29Z)
Assessing and Understanding Creativity in Large Language Models [33.37237667182931]
本稿では,大規模言語モデル(LLM)における創造性レベルを評価するための効率的な枠組みを確立することを目的とする。 The Torrance Tests of Creative Thinking を用いて、7つのタスクにまたがる様々なLSMの創造的パフォーマンスを評価する。 LLMの創造性は、主に独創性に欠けるが、エラボレーションには優れていた。
論文参考訳（メタデータ） (2024-01-23T05:19:47Z)
Can AI Be as Creative as Humans? [84.43873277557852]
理論的には、AIは人間の創造者によって生成されたデータに適切に適合できるという条件の下で、人間と同じくらい創造的になれることを証明しています。 AIの創造性に関する議論は、十分な量のデータに適合する能力の問題に縮小されている。
論文参考訳（メタデータ） (2024-01-03T08:49:12Z)
Art or Artifice? Large Language Models and the False Promise of Creativity [53.04834589006685]
本稿では,創造性を製品として評価するTorrance Test of Creative Writing (TTCW)を提案する。 TTCWは14のバイナリテストで構成されており、Fluency、Flexibility、Originality、Elaborationの3次元に分かれている。分析の結果,LPM生成したストーリーはプロのストーリーよりもTTCWが3～10倍少ないことが判明した。
論文参考訳（メタデータ） (2023-09-25T22:02:46Z)
CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing [139.77117915309023]
CRITICは、大規模な言語モデルに対して、ツールとのヒューマンインタラクションに似た方法で、自分たちのアウトプットの検証と修正を可能にする。自由形式の質問応答、数学的プログラム合成、毒性低減を含む包括的評価は、CRITICがLLMの性能を一貫して向上することを証明している。
論文参考訳（メタデータ） (2023-05-19T15:19:44Z)
Towards Creativity Characterization of Generative Models via Group-based Subset Scanning [64.6217849133164]
創造的プロセスを特定し,定量化し,特徴付けるグループベースサブセットスキャンを提案する。創造的なサンプルは、データセット全体にわたる通常のサンプルや非創造的なサンプルよりも大きな異常のサブセットを生成する。
論文参考訳（メタデータ） (2022-03-01T15:07:14Z)
Towards creativity characterization of generative models via group-based subset scanning [51.84144826134919]
創造的プロセスを定量化し,検出し,特徴付けるグループベースサブセットスキャンを提案する。創造的なサンプルは、データセットをまたいだ通常または非創造的なサンプルよりも大きな異常のサブセットを生成する。
論文参考訳（メタデータ） (2021-04-01T14:07:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。