論文の概要: The Effect of Idea Elaboration on the Automatic Assessment of Idea Originality
- arxiv url: http://arxiv.org/abs/2604.20569v1
- Date: Wed, 22 Apr 2026 13:49:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.05619
- Title: The Effect of Idea Elaboration on the Automatic Assessment of Idea Originality
- Title(参考訳): イデオロギー評価におけるイデオロギー評価の効果
- Authors: Umberto Domanti, Moritz Mock, Sergio Agnoli, Antonella De Angeli,
- Abstract要約: 本研究では,多言語モデル (LLM) が, 多様な思考課題における応答の独創性を評価する上で, 人間のレーダとどのように一致しているかを検討した。
我々は,高次・低次創造的人間とChatGPT-4oによるAlternate Uses Taskに対する4,813の応答を分析した。
自動システムは人工的な応答を特権化する傾向にあったが、この自己選好バイアスは、概念の解明のために分析が制御されたときに消失した。
- 参考スコア(独自算出の注目度): 0.3499870393443268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic systems are increasingly used to assess the originality of responses in creative tasks. They offer a potential solution to key limitations of human assessment (cost, fatigue, and subjectivity), but there is preliminary evidence of a self-preference bias. Accordingly, automatic systems tend to prefer outcomes that are more closely related to their style, rather than to the human one. In this paper, we investigated how Large Language Models (LLMs) align with human raters in assessing the originality of responses in a divergent thinking task. We analysed 4,813 responses to the Alternate Uses Task produced by higher and lower creative humans and ChatGPT-4o. Human raters were two university students who underwent intensive training. Machine raters were two specialised systems fine-tuned on AUT responses and corresponding human ratings (OCSAI and CLAUS) and ChatGPT-4o, which was prompted with the same instructions as human raters. Results confirmed the presence of a self-preference bias in LLMs. Automatic systems tended to privilege artificial responses. However, this self-preference bias disappeared when the analyses controlled for the idea elaboration. We discuss theoretical and methodological implications of these findings by highlighting future directions for research on creativity assessment.
- Abstract(参考訳): 自動システムは、創造的なタスクにおける応答の独創性を評価するためにますます使われています。
人間の評価の重要な限界(コスト、疲労、主観性)に対する潜在的な解決策を提供するが、自己選好バイアスの予備的な証拠がある。
したがって、自動システムは、人間よりも、彼らのスタイルとより密接な関係のある結果を好む傾向にある。
本稿では,多言語モデル (LLM) が, 多様な思考課題における応答の独創性を評価する上で, 人間のレーダとどのように一致しているかを検討した。
我々は,高次・低次創造的人間とChatGPT-4oによるAlternate Uses Taskに対する4,813の応答を分析した。
レイパーは、集中的な訓練を受けた2人の大学生であった。
AUT応答とそれに対応するヒト格付け(OCSAIとCLAUS)とChatGPT-4oの2種類の特別なシステムで、これはヒト格付けと同様の指示で誘導された。
その結果, LLMにおける自己選好バイアスの存在が確認された。
自動システムは人工的な応答を特権化する傾向があった。
しかし、この自己選好バイアスは、分析がアイデア開発のために制御した時に消失した。
本稿では,創造性評価研究の今後の方向性を明らかにすることによって,これらの知見の理論的・方法論的意味を論じる。
関連論文リスト
- How do Humans and Language Models Reason About Creativity? A Comparative Analysis [12.398832289718703]
評価を用いた例を含む2つの実験が創造性評価にどのように影響するかを検討した。
研究1では、フォーマルな科学や工学のトレーニングで72人の専門家の創造性評価を分析した。
研究2では、最先端のLCMを用いた並列解析により、モデルが独創性を評価する際に、アイデアの非日常性と遠隔性を優先していることが判明した。
論文 参考訳(メタデータ) (2025-02-05T15:08:43Z) - MIRROR: A Novel Approach for the Automated Evaluation of Open-Ended Question Generation [0.4857223913212445]
自動質問生成システムによって生成される質問に対する評価プロセスを自動化する新しいシステムMIRRORを提案する。
その結果,MIRRORと呼ばれるフィードバックに基づく手法を用いることで,人間の評価指標,すなわち妥当性,適切性,新規性,複雑性,文法性のスコアが向上した。
論文 参考訳(メタデータ) (2024-10-16T12:24:42Z) - Aligning Large Language Models from Self-Reference AI Feedback with one General Principle [61.105703857868775]
13B Llama2-Chatで高品質なフィードバックを提供できる自己参照型AIフィードバックフレームワークを提案する。
具体的には、まずAIがユーザーの指示に反応し、それに基づいて他の回答に対する批判を参照として生成する。
最後に、批判に応じて、どの回答が人間の好みに合うかを判断する。
論文 参考訳(メタデータ) (2024-06-17T03:51:46Z) - Towards Understanding Sycophancy in Language Models [49.352840825419236]
人間のフィードバックを利用した微調整を施したモデルにおける梅毒の有病率について検討した。
5つの最先端のAIアシスタントが、4つの異なる自由形式のテキスト生成タスクで常に梅毒を発現していることを示す。
以上の結果から、サイコファンシーは最先端のAIアシスタントの一般的な行動である可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-20T14:46:48Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。