論文の概要: How do Humans and Language Models Reason About Creativity? A Comparative Analysis
- arxiv url: http://arxiv.org/abs/2502.03253v1
- Date: Wed, 05 Feb 2025 15:08:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:27:38.516439
- Title: How do Humans and Language Models Reason About Creativity? A Comparative Analysis
- Title(参考訳): 人間と言語モデルが創造性についてどのように考えるか : 比較分析
- Authors: Antonio Laverghetta Jr., Tuhin Chakrabarty, Tom Hope, Jimmy Pronchick, Krupa Bhawsar, Roger E. Beaty,
- Abstract要約: 評価を用いた例を含む2つの実験が創造性評価にどのように影響するかを検討した。
研究1では, フォーマルな科学や工学の訓練を受けた72人の専門家の創造性評価を, 評価を受けた者(例)と、そうでない者(例)を比較した。
研究2では、最先端のLCMを用いた並列解析により、モデルが独創性を評価する際に、アイデアの非日常性と遠隔性を優先していることが判明した。
- 参考スコア(独自算出の注目度): 12.398832289718703
- License:
- Abstract: Creativity assessment in science and engineering is increasingly based on both human and AI judgment, but the cognitive processes and biases behind these evaluations remain poorly understood. We conducted two experiments examining how including example solutions with ratings impact creativity evaluation, using a finegrained annotation protocol where raters were tasked with explaining their originality scores and rating for the facets of remoteness (whether the response is "far" from everyday ideas), uncommonness (whether the response is rare), and cleverness. In Study 1, we analyzed creativity ratings from 72 experts with formal science or engineering training, comparing those who received example solutions with ratings (example) to those who did not (no example). Computational text analysis revealed that, compared to experts with examples, no-example experts used more comparative language (e.g., "better/worse") and emphasized solution uncommonness, suggesting they may have relied more on memory retrieval for comparisons. In Study 2, parallel analyses with state-of-the-art LLMs revealed that models prioritized uncommonness and remoteness of ideas when rating originality, suggesting an evaluative process rooted around the semantic similarity of ideas. In the example condition, while LLM accuracy in predicting the true originality scores improved, the correlations of remoteness, uncommonness, and cleverness with originality also increased substantially - to upwards of 0.99 - suggesting a homogenization in the LLMs evaluation of the individual facets. These findings highlight important implications for how humans and AI reason about creativity and suggest diverging preferences for what different populations prioritize when rating.
- Abstract(参考訳): 科学と工学における創造性評価は、人間とAIの両方の判断に基づいているが、これらの評価の背後にある認知過程とバイアスは、いまだに理解されていない。
評価手法が創造性評価にどう影響するかを2つの実験で検証し,ラッカーが自己の独創性評価と遠隔性評価(日常の考えから「遠い」かどうか)、非日常性(反応が稀かどうか)、巧妙さ(応答が稀かどうか)を説明するための微粒なアノテーションプロトコルを用いて検討した。
研究1では、フォーマルな科学や工学の訓練を受けた72人の専門家の創造性評価を分析対象とし、実例を評価対象(例)と比較した。
計算テキスト分析により、例のエキスパートと比較して、非例の専門家は、より比較言語(例えば、"better/worse")を使用し、ソリューションの非共通性を強調し、比較のためのメモリ検索にもっと依存していた可能性があることを示した。
研究2では、最先端のLCMを用いた並列分析により、モデルは独創性を評価する際にアイデアの非日常性と遠隔性を優先し、アイデアの意味的類似性に根ざした評価過程が示唆された。
実測値のLLM精度は向上したが, 遠隔性, 不普通性, 利口性と独創性との相関も有意に増加し, 個々の顔のLCMs評価における均質化が示唆された。
これらの発見は、人間とAIが創造性についてどのように考えるかについて重要な意味合いを示し、異なる集団が格付け時に優先する優先順位の変動を示唆している。
関連論文リスト
- Quantitative Assessment of Intersectional Empathetic Bias and Understanding [0.0]
多くの文献が、構成のゆるい定義に基づいて現在の共感の運用について批判している。
本稿では,その心理的起源に近い共感を運用する共感評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-08T18:43:15Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Good Idea or Not, Representation of LLM Could Tell [86.36317971482755]
我々は、大規模言語モデルの知識を活用し、科学的アイデアのメリットを評価することを目的としたアイデアアセスメントに焦点をあてる。
我々は、このタスクに対する様々なアプローチのパフォーマンスを訓練し評価するために、細心の注意を払って設計された、フルテキストを持つ約4万の原稿からベンチマークデータセットをリリースする。
その結果, 大規模言語モデルの表現は, 生成出力よりもアイデアの価値を定量化する可能性が高いことが示唆された。
論文 参考訳(メタデータ) (2024-09-07T02:07:22Z) - (De)Noise: Moderating the Inconsistency Between Human Decision-Makers [15.291993233528526]
本研究では, アルゴリズムによる意思決定支援が, 不動産評価の文脈における人間の意思決定の不整合度を緩和するのに有効かどうかを検討する。
i) アルゴリズムによって選択されたペアワイド比較において, 回答者に見積をレビューするよう求めることと, (ii) 従来の機械的アドバイスを回答者に提供することは, 人間の反応に影響を与える効果的な方法であることがわかった。
論文 参考訳(メタデータ) (2024-07-15T20:24:36Z) - Mitigating Cognitive Biases in Multi-Criteria Crowd Assessment [22.540544209683592]
クラウドソーシングにおけるマルチ基準アセスメントに関連する認知バイアスに着目した。
複数の異なる基準で目標を同時に評価するクラウドワーカーは、いくつかの基準の優位性や評価対象の世界的な印象による偏りのある応答を提供することができる。
評価基準間の関係を考慮に入れたベイズ意見集約モデルのための2つの具体的なモデル構造を提案する。
論文 参考訳(メタデータ) (2024-07-10T16:00:23Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z) - Evaluating Agents using Social Choice Theory [20.58298173034909]
我々は、投票理論のレンズを通して、多くの一般的な評価問題を見ることができると論じる。
各タスクは別個の投票者として解釈され、全体的な評価を得るためには、通常のランク付けやエージェントのペア比較しか必要としない。
これらの評価は解釈可能で柔軟性があり、現在クロスタスク評価に直面している多くの問題を回避している。
論文 参考訳(メタデータ) (2023-12-05T20:40:37Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Rethinking and Refining the Distinct Metric [61.213465863627476]
我々は、その期待に基づいて異なるトークンの数を再スケーリングすることで、異なるスコアの計算を洗練する。
実験的および理論的証拠の両面から,本手法が元の異なるスコアで示されるバイアスを効果的に除去することを示す。
論文 参考訳(メタデータ) (2022-02-28T07:36:30Z) - SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption
Evaluation via Typicality Analysis [20.026835809227283]
情報理論に根ざした評価の新しい定式化である「定型性」を導入する。
これらの分割された意味論と流布の次元が、キャプタの違いに関するシステムレベルの洞察をいかに与えているかを示す。
提案手法とそれらの組み合わせであるSMURFは,他のルールベース評価指標と比較した場合,人間の判断と最先端の相関が得られた。
論文 参考訳(メタデータ) (2021-06-02T19:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。