論文の概要: AI Models Exceed Individual Human Accuracy in Predicting Everyday Social Norms
- arxiv url: http://arxiv.org/abs/2508.19004v1
- Date: Tue, 26 Aug 2025 13:03:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.848031
- Title: AI Models Exceed Individual Human Accuracy in Predicting Everyday Social Norms
- Title(参考訳): 日々の社会規範を予測するAIモデル
- Authors: Pontus Strimling, Simon Karlsson, Irina Vartanova, Kimmo Eriksson,
- Abstract要約: 統計的学習だけで、大規模言語モデルが洗練された規範的理解を達成できるかどうかを考察する。
2つの研究を通して、人間の社会的適切性判定を予測できる複数のAIシステムの能力を評価する。
この予測力にもかかわらず、全てのモデルは体系的、相関的な誤りを示した。
- 参考スコア(独自算出の注目度): 0.4666493857924357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A fundamental question in cognitive science concerns how social norms are acquired and represented. While humans typically learn norms through embodied social experience, we investigated whether large language models can achieve sophisticated norm understanding through statistical learning alone. Across two studies, we systematically evaluated multiple AI systems' ability to predict human social appropriateness judgments for 555 everyday scenarios by examining how closely they predicted the average judgment compared to each human participant. In Study 1, GPT-4.5's accuracy in predicting the collective judgment on a continuous scale exceeded that of every human participant (100th percentile). Study 2 replicated this, with Gemini 2.5 Pro outperforming 98.7% of humans, GPT-5 97.8%, and Claude Sonnet 4 96.0%. Despite this predictive power, all models showed systematic, correlated errors. These findings demonstrate that sophisticated models of social cognition can emerge from statistical learning over linguistic data alone, challenging strong versions of theories emphasizing the exclusive necessity of embodied experience for cultural competence. The systematic nature of AI limitations across different architectures indicates potential boundaries of pattern-based social understanding, while the models' ability to outperform nearly all individual humans in this predictive task suggests that language serves as a remarkably rich repository for cultural knowledge transmission.
- Abstract(参考訳): 認知科学における根本的な問題は、どのように社会的規範が獲得され、表現されるかである。
人間は通常、具体的社会経験を通じて規範を学習するが、大規模言語モデルが統計的学習だけで洗練された規範理解を達成できるかどうかを調査した。
2つの研究を通して,複数のAIシステムが日常シナリオにおいて,人間の社会的適切性判断を予測できる能力について,被験者ごとの平均的判断がどの程度近いかを検証し,体系的に評価した。
研究1では, GPT-4.5の連続的判断精度は, 全参加者(100%)よりも高かった。
研究2では、Gemini 2.5 Proが98.7%、GPT-5 97.8%、Claude Sonnet 4 96.0%を上回った。
この予測力にもかかわらず、全てのモデルは体系的、相関的な誤りを示した。
これらの結果から, 社会的認知の高度モデルは, 言語データのみによる統計的学習から生まれる可能性が示唆され, 文化能力に具体的経験が不可欠であることを示す理論の強力なバージョンに挑戦する。
異なるアーキテクチャにまたがるAI制限の体系的な性質は、パターンに基づく社会的理解の境界を示す一方で、この予測タスクにおいて、モデルがほぼすべての個人を上回る能力は、言語が文化的知識伝達のための驚くほど豊富なリポジトリとして機能することを示唆している。
関連論文リスト
- Empirically evaluating commonsense intelligence in large language models with large-scale human judgments [4.7206754497888035]
本稿では,人工知能における常識を評価する新しい手法を提案する。
モデルの判断と人口の対応を計測する。
私たちのフレームワークは、異なる、しばしば互換性のない、知識の社会的備蓄を持つ人間の集合体にAIモデルを適用することの要求に寄与します。
論文 参考訳(メタデータ) (2025-05-15T13:55:27Z) - Deterministic AI Agent Personality Expression through Standard Psychological Diagnostics [0.0]
確立された心理学的枠組みを用いて、AIモデルは決定論的かつ一貫した個性を表現することができることを示す。
GPT-4oやo1のようなより高度なモデルは、特定の個性を表現する上で最も正確であることを示している。
これらの発見は、多様で一貫した個性を持つAIエージェントを作成する基盤を確立する。
論文 参考訳(メタデータ) (2025-03-21T12:12:05Z) - Social Genome: Grounded Social Reasoning Abilities of Multimodal Models [61.88413918026431]
社会的推論能力は、AIシステムが社会的文脈内でのマルチモーダルなヒューマンコミュニケーションと相互作用を解釈し、応答する上で不可欠である。
SOCIAL GENOMEは,マルチモーダルモデルのきめ細かな基礎的な社会的推論能力を示す最初のベンチマークである。
論文 参考訳(メタデータ) (2025-02-21T00:05:40Z) - The Cognitive Capabilities of Generative AI: A Comparative Analysis with Human Benchmarks [17.5336703613751]
本研究は、ウェクスラー成人インテリジェンス尺度(WAIS-IV)における大規模言語モデルと視覚言語モデルと人間のパフォーマンスに対するベンチマークである。
ほとんどのモデルは、文字や数字の任意のシーケンスのようなトークンの保存、検索、操作において例外的な機能を示した。
これらの長所にもかかわらず、我々はマルチモーダルモデルから知覚推論指標(PRI)の性能が一貫して劣っていることを観察した。
論文 参考訳(メタデータ) (2024-10-09T19:22:26Z) - Evaluating and Modeling Social Intelligence: A Comparative Study of Human and AI Capabilities [29.18360187129556]
本研究では,人間の認知の最も顕著な側面の一つである社会的知性を評価するためのベンチマークを紹介する。
我々は、社会力学の総合的理論枠組みを開発し、逆推論(IR)と逆逆計画(IIP)の2つの評価タスクを導入した。
大規模な実験と分析の結果、人間は最新のGPTモデルを上回る性能、ゼロショット学習、ワンショット一般化、マルチモダリティへの適応性を示した。
論文 参考訳(メタデータ) (2024-05-20T07:34:48Z) - Large Language Models Can Infer Psychological Dispositions of Social Media Users [1.0923877073891446]
GPT-3.5とGPT-4は、ゼロショット学習シナリオにおいて、ユーザのFacebookステータス更新からビッグファイブの性格特性を導出できるかどうかを検証する。
その結果, LLM-inferred と self-reported trait score の間には r =.29 (range = [.22,.33]) の相関が認められた。
予測は、いくつかの特徴について、女性と若い個人にとってより正確であることが判明し、基礎となるトレーニングデータやオンライン自己表現の違いから生じる潜在的なバイアスが示唆された。
論文 参考訳(メタデータ) (2023-09-13T01:27:48Z) - Training Socially Aligned Language Models on Simulated Social
Interactions [99.39979111807388]
AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。
現在の言語モデル(LM)は、トレーニングコーパスを独立して厳格に複製するように訓練されている。
本研究は,シミュレートされた社会的相互作用からLMを学習することのできる,新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-26T14:17:36Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - Machine Common Sense [77.34726150561087]
機械の常識は、人工知能(AI)において広範で潜在的に無拘束な問題のままである
本稿では、対人インタラクションのようなドメインに焦点を当てたコモンセンス推論のモデル化の側面について論じる。
論文 参考訳(メタデータ) (2020-06-15T13:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。