論文の概要: Empirically evaluating commonsense intelligence in large language models with large-scale human judgments
- arxiv url: http://arxiv.org/abs/2505.10309v1
- Date: Thu, 15 May 2025 13:55:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.341084
- Title: Empirically evaluating commonsense intelligence in large language models with large-scale human judgments
- Title(参考訳): 大規模人的判断を伴う大規模言語モデルにおけるコモンセンスインテリジェンスを実証評価する
- Authors: Tuan Dung Nguyen, Duncan J. Watts, Mark E. Whiting,
- Abstract要約: 本稿では,人工知能における常識を評価する新しい手法を提案する。
モデルの判断と人口の対応を計測する。
私たちのフレームワークは、異なる、しばしば互換性のない、知識の社会的備蓄を持つ人間の集合体にAIモデルを適用することの要求に寄与します。
- 参考スコア(独自算出の注目度): 4.7206754497888035
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Commonsense intelligence in machines is often assessed by static benchmarks that compare a model's output against human-prescribed correct labels. An important, albeit implicit, assumption of these labels is that they accurately capture what any human would think, effectively treating human common sense as homogeneous. However, recent empirical work has shown that humans vary enormously in what they consider commonsensical; thus what appears self-evident to one benchmark designer may not be so to another. Here, we propose a novel method for evaluating common sense in artificial intelligence (AI), specifically in large language models (LLMs), that incorporates empirically observed heterogeneity among humans by measuring the correspondence between a model's judgment and that of a human population. We first find that, when treated as independent survey respondents, most LLMs remain below the human median in their individual commonsense competence. Second, when used as simulators of a hypothetical population, LLMs correlate with real humans only modestly in the extent to which they agree on the same set of statements. In both cases, smaller, open-weight models are surprisingly more competitive than larger, proprietary frontier models. Our evaluation framework, which ties commonsense intelligence to its cultural basis, contributes to the growing call for adapting AI models to human collectivities that possess different, often incompatible, social stocks of knowledge.
- Abstract(参考訳): 機械におけるコモンセンスインテリジェンスはしばしば、モデル出力と人間が指定した正しいラベルを比較する静的ベンチマークによって評価される。
これらのラベルの重要かつ暗黙的な仮定は、人間がどう考えるか正確に把握し、人間の常識を均質なものとして効果的に扱うことである。
しかし、最近の実証研究により、人間は常識的と考えるものに大きな違いがあることが示されているため、あるベンチマークデザイナが自明であるように見えるものは、別のベンチマークデザイナにとってそうではないかもしれない。
本稿では,人工知能(AI),特に大規模言語モデル(LLM)における共通感覚を評価する新しい手法を提案する。
まず、独立した調査回答者として扱われた場合、ほとんどのLCMは、個々のコモンセンス能力においてヒトの中央値以下であることがわかった。
第二に、仮説的な集団のシミュレータとして使われる場合、LLMは実際の人間とわずかに相関し、それらが同じ声明に一致する程度にしか関連しない。
どちらの場合も、小型でオープンウェイトなモデルは、より大きなプロプライエタリなフロンティアモデルよりも驚くほど競争力がある。
我々の評価フレームワークは、コモンセンスインテリジェンスをその文化的基盤と結びつけ、異なる、しばしば互換性のない、知識の社会的備蓄を持つ人間の集合体にAIモデルを適用することの要求に寄与する。
関連論文リスト
- Modeling Open-World Cognition as On-Demand Synthesis of Probabilistic Models [93.1043186636177]
我々は、人々が分散表現と象徴表現の組み合わせを使って、新しい状況に合わせた見知らぬ精神モデルを構築するという仮説を探求する。
モデル合成アーキテクチャ」という概念の計算的実装を提案する。
我々は、新しい推論データセットに基づく人間の判断のモデルとして、MSAを評価した。
論文 参考訳(メタデータ) (2025-07-16T18:01:03Z) - From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning [52.32745233116143]
人間は知識をセマンティック圧縮によってコンパクトなカテゴリに分類する。
大規模言語モデル(LLM)は、顕著な言語能力を示す。
しかし、その内部表現が、圧縮と意味的忠実性の間の人間のようなトレードオフにぶつかるかどうかは不明だ。
論文 参考訳(メタデータ) (2025-05-21T16:29:00Z) - HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation [38.614841553065766]
大規模マルチモーダルモデル(LMM)は視覚的質問応答(VQA)、画像キャプション、接地といったタスクで広くテストされてきた。
HumaniBenchは、32,000の現実世界の画像検索ペアと評価スイートの新しいベンチマークである。
HumaniBenchは、公正性、倫理、共感、傾倒性、推論、堅牢性、多言語性という7つの主要なアライメント原則にまたがるLMMを評価する。
論文 参考訳(メタデータ) (2025-05-16T17:09:44Z) - Human-Aligned Bench: Fine-Grained Assessment of Reasoning Ability in MLLMs vs. Humans [9.315735862658244]
マルチモーダル推論と人的パフォーマンスのアライメントのためのベンチマークであるHuman-Aligned Benchを提案する。
両言語(中国語と英語)の多モーダル質問や純粋テキストベースの質問など、文脈的推論のみに依存する9,794の多モーダル質問を収集した。
マルチモーダル推論におけるMLLMの性能と人為的性能との間には顕著な違いがある。
論文 参考訳(メタデータ) (2025-05-16T11:41:19Z) - AI-enhanced semantic feature norms for 786 concepts [8.68405554675708]
大規模言語モデル(LLM)からの応答を伴って人為的特徴ノルムのデータセットを増強する新しいアプローチを導入する。
私たちは、AIによって強化された機能規範データセット、NOVA: Norms Optimized Via AIが、概念間の機能密度と重複をはるかに高めていることに気付きました。
論文 参考訳(メタデータ) (2025-05-15T21:43:34Z) - How do Humans and Language Models Reason About Creativity? A Comparative Analysis [12.398832289718703]
評価を用いた例を含む2つの実験が創造性評価にどのように影響するかを検討した。
研究1では、フォーマルな科学や工学のトレーニングで72人の専門家の創造性評価を分析した。
研究2では、最先端のLCMを用いた並列解析により、モデルが独創性を評価する際に、アイデアの非日常性と遠隔性を優先していることが判明した。
論文 参考訳(メタデータ) (2025-02-05T15:08:43Z) - Beyond correlation: The Impact of Human Uncertainty in Measuring the Effectiveness of Automatic Evaluation and LLM-as-a-Judge [51.93909886542317]
一つの集計相関スコアを*参照することで、人名と自動評価の基本的な違いが曖昧になることを示す。
本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化データを提案する。
論文 参考訳(メタデータ) (2024-10-03T03:08:29Z) - Scaling Laws Do Not Scale [54.72120385955072]
最近の研究によると、データセットのサイズが大きくなると、そのデータセットでトレーニングされたモデルのパフォーマンスが向上する。
このスケーリング法則の関係は、モデルのアウトプットの質を異なる集団がどのように認識するかと一致しないパフォーマンスを測定するために使われる指標に依存する、と我々は主張する。
異なるコミュニティは、互いに緊張関係にある価値を持ち、モデル評価に使用されるメトリクスについて、困難で、潜在的に不可能な選択をもたらす可能性がある。
論文 参考訳(メタデータ) (2023-07-05T15:32:21Z) - Training Socially Aligned Language Models on Simulated Social
Interactions [99.39979111807388]
AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。
現在の言語モデル(LM)は、トレーニングコーパスを独立して厳格に複製するように訓練されている。
本研究は,シミュレートされた社会的相互作用からLMを学習することのできる,新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-26T14:17:36Z) - Human and AI Perceptual Differences in Image Classification Errors [13.045020949359621]
本研究はまず,2つの情報源からの誤りの統計的分布を分析し,課題難易度がこれらの分布に与える影響について検討する。
AIがトレーニングデータから優れたモデルを学び、全体的な精度で人間を上回ったとしても、これらのAIモデルは人間の知覚と有意で一貫した違いを持つ。
論文 参考訳(メタデータ) (2023-04-18T05:09:07Z) - Out of One, Many: Using Language Models to Simulate Human Samples [3.278541277919869]
このようなツール(GPT-3言語モデル)の「アルゴリズムバイアス」は、粒度と人口統計学的に相関していることを示す。
我々は、実際の人間の参加者から何千もの社会デマトグラフィーのバックストリーにモデルを条件付けることで「シリコンサンプル」を作成します。
論文 参考訳(メタデータ) (2022-09-14T19:53:32Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - What's the best place for an AI conference, Vancouver or ______: Why
completing comparative questions is difficult [22.04829832439774]
ニューラルLMが妥当な質問をする(答えない)能力について研究する。
この課題の正確性は,質問が妥当かどうかの判断とよく関連している。
論文 参考訳(メタデータ) (2021-04-05T14:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。