論文の概要: Empirically evaluating commonsense intelligence in large language models with large-scale human judgments
- arxiv url: http://arxiv.org/abs/2505.10309v1
- Date: Thu, 15 May 2025 13:55:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.341084
- Title: Empirically evaluating commonsense intelligence in large language models with large-scale human judgments
- Title(参考訳): 大規模人的判断を伴う大規模言語モデルにおけるコモンセンスインテリジェンスを実証評価する
- Authors: Tuan Dung Nguyen, Duncan J. Watts, Mark E. Whiting,
- Abstract要約: 本稿では,人工知能における常識を評価する新しい手法を提案する。
モデルの判断と人口の対応を計測する。
私たちのフレームワークは、異なる、しばしば互換性のない、知識の社会的備蓄を持つ人間の集合体にAIモデルを適用することの要求に寄与します。
- 参考スコア(独自算出の注目度): 4.7206754497888035
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Commonsense intelligence in machines is often assessed by static benchmarks that compare a model's output against human-prescribed correct labels. An important, albeit implicit, assumption of these labels is that they accurately capture what any human would think, effectively treating human common sense as homogeneous. However, recent empirical work has shown that humans vary enormously in what they consider commonsensical; thus what appears self-evident to one benchmark designer may not be so to another. Here, we propose a novel method for evaluating common sense in artificial intelligence (AI), specifically in large language models (LLMs), that incorporates empirically observed heterogeneity among humans by measuring the correspondence between a model's judgment and that of a human population. We first find that, when treated as independent survey respondents, most LLMs remain below the human median in their individual commonsense competence. Second, when used as simulators of a hypothetical population, LLMs correlate with real humans only modestly in the extent to which they agree on the same set of statements. In both cases, smaller, open-weight models are surprisingly more competitive than larger, proprietary frontier models. Our evaluation framework, which ties commonsense intelligence to its cultural basis, contributes to the growing call for adapting AI models to human collectivities that possess different, often incompatible, social stocks of knowledge.
- Abstract(参考訳): 機械におけるコモンセンスインテリジェンスはしばしば、モデル出力と人間が指定した正しいラベルを比較する静的ベンチマークによって評価される。
これらのラベルの重要かつ暗黙的な仮定は、人間がどう考えるか正確に把握し、人間の常識を均質なものとして効果的に扱うことである。
しかし、最近の実証研究により、人間は常識的と考えるものに大きな違いがあることが示されているため、あるベンチマークデザイナが自明であるように見えるものは、別のベンチマークデザイナにとってそうではないかもしれない。
本稿では,人工知能(AI),特に大規模言語モデル(LLM)における共通感覚を評価する新しい手法を提案する。
まず、独立した調査回答者として扱われた場合、ほとんどのLCMは、個々のコモンセンス能力においてヒトの中央値以下であることがわかった。
第二に、仮説的な集団のシミュレータとして使われる場合、LLMは実際の人間とわずかに相関し、それらが同じ声明に一致する程度にしか関連しない。
どちらの場合も、小型でオープンウェイトなモデルは、より大きなプロプライエタリなフロンティアモデルよりも驚くほど競争力がある。
我々の評価フレームワークは、コモンセンスインテリジェンスをその文化的基盤と結びつけ、異なる、しばしば互換性のない、知識の社会的備蓄を持つ人間の集合体にAIモデルを適用することの要求に寄与する。
関連論文リスト
- How do Humans and Language Models Reason About Creativity? A Comparative Analysis [12.398832289718703]
評価を用いた例を含む2つの実験が創造性評価にどのように影響するかを検討した。
研究1では、フォーマルな科学や工学のトレーニングで72人の専門家の創造性評価を分析した。
研究2では、最先端のLCMを用いた並列解析により、モデルが独創性を評価する際に、アイデアの非日常性と遠隔性を優先していることが判明した。
論文 参考訳(メタデータ) (2025-02-05T15:08:43Z) - Beyond correlation: The Impact of Human Uncertainty in Measuring the Effectiveness of Automatic Evaluation and LLM-as-a-Judge [51.93909886542317]
一つの集計相関スコアを*参照することで、人名と自動評価の基本的な違いが曖昧になることを示す。
本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化データを提案する。
論文 参考訳(メタデータ) (2024-10-03T03:08:29Z) - Training Socially Aligned Language Models on Simulated Social
Interactions [99.39979111807388]
AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。
現在の言語モデル(LM)は、トレーニングコーパスを独立して厳格に複製するように訓練されている。
本研究は,シミュレートされた社会的相互作用からLMを学習することのできる,新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-26T14:17:36Z) - Human and AI Perceptual Differences in Image Classification Errors [13.045020949359621]
本研究はまず,2つの情報源からの誤りの統計的分布を分析し,課題難易度がこれらの分布に与える影響について検討する。
AIがトレーニングデータから優れたモデルを学び、全体的な精度で人間を上回ったとしても、これらのAIモデルは人間の知覚と有意で一貫した違いを持つ。
論文 参考訳(メタデータ) (2023-04-18T05:09:07Z) - Out of One, Many: Using Language Models to Simulate Human Samples [3.278541277919869]
このようなツール(GPT-3言語モデル)の「アルゴリズムバイアス」は、粒度と人口統計学的に相関していることを示す。
我々は、実際の人間の参加者から何千もの社会デマトグラフィーのバックストリーにモデルを条件付けることで「シリコンサンプル」を作成します。
論文 参考訳(メタデータ) (2022-09-14T19:53:32Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - What's the best place for an AI conference, Vancouver or ______: Why
completing comparative questions is difficult [22.04829832439774]
ニューラルLMが妥当な質問をする(答えない)能力について研究する。
この課題の正確性は,質問が妥当かどうかの判断とよく関連している。
論文 参考訳(メタデータ) (2021-04-05T14:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。