論文の概要: Everyone prefers human writers, including AI
- arxiv url: http://arxiv.org/abs/2510.08831v1
- Date: Thu, 09 Oct 2025 21:33:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.803269
- Title: Everyone prefers human writers, including AI
- Title(参考訳): AIを含め、誰もが人間の作家を好む
- Authors: Wouter Haverals, Meredith Martin,
- Abstract要約: 我々は,Raymond Queneaus Exercises Style (1947) を用いて帰属バイアスを測定する実験を行った。
人間は+13.7ポイント(pp)バイアス(コーエンのh = 0.28, 95%CI: 0.21-0.34)を示し、AIモデルは+34.3ポイントバイアス(h = 0.70, 95%CI: 0.65-0.76)を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI writing tools become widespread, we need to understand how both humans and machines evaluate literary style, a domain where objective standards are elusive and judgments are inherently subjective. We conducted controlled experiments using Raymond Queneau's Exercises in Style (1947) to measure attribution bias across evaluators. Study 1 compared human participants (N=556) and AI models (N=13) evaluating literary passages from Queneau versus GPT-4-generated versions under three conditions: blind, accurately labeled, and counterfactually labeled. Study 2 tested bias generalization across a 14$\times$14 matrix of AI evaluators and creators. Both studies revealed systematic pro-human attribution bias. Humans showed +13.7 percentage point (pp) bias (Cohen's h = 0.28, 95% CI: 0.21-0.34), while AI models showed +34.3 percentage point bias (h = 0.70, 95% CI: 0.65-0.76), a 2.5-fold stronger effect (P$<$0.001). Study 2 confirmed this bias operates across AI architectures (+25.8pp, 95% CI: 24.1-27.6%), demonstrating that AI systems systematically devalue creative content when labeled as "AI-generated" regardless of which AI created it. We also find that attribution labels cause evaluators to invert assessment criteria, with identical features receiving opposing evaluations based solely on perceived authorship. This suggests AI models have absorbed human cultural biases against artificial creativity during training. Our study represents the first controlled comparison of attribution bias between human and artificial evaluators in aesthetic judgment, revealing that AI systems not only replicate but amplify this human tendency.
- Abstract(参考訳): AI書記ツールが普及するにつれて、人間と機械の両方が文学的スタイルをどのように評価するかを理解する必要がある。
我々はレイモンド・ケノーのExercises in Style (1947) を用いて, 評価器間の帰属バイアスを測定する制御実験を行った。
研究1では、人間の被験者(N=556)とAIモデル(N=13)の3つの条件(盲目、正確にラベル付け、偽ラベル付け)で、ケネウ語からの文学的引用を評価する。
調査2では、AI評価者とクリエーターの14$\times$14マトリックスでバイアス一般化をテストした。
どちらの研究も、体系的なヒトの帰属バイアスを明らかにした。
人間は+13.7ポイント(pp)バイアス(コーエンのh = 0.28, 95%CI: 0.21-0.34)を示し、AIモデルは+34.3ポイントバイアス(h = 0.70, 95%CI: 0.65-0.76)、2.5倍強い効果(P$<0.001)を示した。
研究2は、このバイアスがAIアーキテクチャ全体(+25.8pp, 95% CI: 24.1-27.6%)にわたって作用していることを確認し、AIシステムがAIが作成したものに関係なく「AI生成」とラベル付けされたときに、創造的コンテンツを体系的に非評価することを示した。
また,属性ラベルが評価基準を逆転させる原因となり,著者の認識に基づく評価に反する特徴が認められた。
これはAIモデルが、トレーニング中に人工的な創造性に対する人間の文化的バイアスを吸収したことを示唆している。
我々の研究は、美的判断における人間と人工的な評価者間の帰属バイアスの制御された最初の比較であり、AIシステムは、複製するだけでなく、人間の傾向を増幅することを明らかにする。
関連論文リスト
- Divergent Realities: A Comparative Analysis of Human Expert vs. Artificial Intelligence Based Generation and Evaluation of Treatment Plans in Dermatology [0.0]
AIが診断を超えて拡大するにつれ、AIが生成する治療計画を評価することが重要な課題となる。
この研究は、人間の専門家と2つのAIモデル(ジェネラリストと推論者)の計画を比較する。
論文 参考訳(メタデータ) (2025-07-08T06:59:58Z) - Charting the Parrot's Song: A Maximum Mean Discrepancy Approach to Measuring AI Novelty, Originality, and Distinctiveness [0.2209921757303168]
本稿では, 生成過程間の分布差を測定するための, 頑健で定量的な手法を提案する。
ペアワイズな類似性チェックを行うのではなく、出力分布全体を比較することで、私たちのアプローチは創造的なプロセスと直接対比する。
この研究は、裁判所や政策立案者に、AIのノベルティを定量化する計算効率が高く、法的に関係のあるツールを提供する。
論文 参考訳(メタデータ) (2025-04-11T11:15:26Z) - Benchmarking the rationality of AI decision making using the transitivity axiom [0.0]
我々は、人間の嗜好の推移性を評価するために設計された一連の選択実験を通して、AI応答の合理性を評価する。
Llama 2 と 3 モデルは一般的に遷移度を満足するが、違反が発生した場合、LLM の Chat/Instruct バージョンでのみ発生する。
論文 参考訳(メタデータ) (2025-02-14T20:56:40Z) - Beyond correlation: The Impact of Human Uncertainty in Measuring the Effectiveness of Automatic Evaluation and LLM-as-a-Judge [51.93909886542317]
一つの集計相関スコアを*参照することで、人名と自動評価の基本的な違いが曖昧になることを示す。
本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化データを提案する。
論文 参考訳(メタデータ) (2024-10-03T03:08:29Z) - Human Bias in the Face of AI: Examining Human Judgment Against Text Labeled as AI Generated [48.70176791365903]
本研究では、偏見がAIと人為的コンテンツの知覚をどう形成するかを考察する。
ラベル付きおよびラベルなしコンテンツに対するヒトのラッカーの反応について検討した。
論文 参考訳(メタデータ) (2024-09-29T04:31:45Z) - Can Machines Imitate Humans? Integrative Turing-like tests for Language and Vision Demonstrate a Narrowing Gap [56.611702960809644]
3つの言語タスクと3つの視覚タスクで人間を模倣するAIの能力をベンチマークする。
次に,人間1,916名,AI10名を対象に,72,191名のチューリング様試験を行った。
模倣能力は従来のAIパフォーマンス指標と最小限の相関を示した。
論文 参考訳(メタデータ) (2022-11-23T16:16:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。