論文の概要: A suite of LMs comprehend puzzle statements as well as humans
- arxiv url: http://arxiv.org/abs/2505.08996v1
- Date: Tue, 13 May 2025 22:18:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.309138
- Title: A suite of LMs comprehend puzzle statements as well as humans
- Title(参考訳): パズル文と人間を理解するLMのスイート
- Authors: Adele E Goldberg, Supantho Rakshit, Jennifer Hu, Kyle Mahowald,
- Abstract要約: 本研究では,ヒトの反応を2つの条件で比較した事前登録研究を報告した。
リリーディングが制限されると、人間の精度は大幅に低下し、Falcon-180B-ChatやGPT-4よりも低下した。
結果は、モデル固有の欠陥よりも、実用的感受性の共有を示唆している。
- 参考スコア(独自算出の注目度): 13.386647125288516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent claims suggest that large language models (LMs) underperform humans in comprehending minimally complex English statements (Dentella et al., 2024). Here, we revisit those findings and argue that human performance was overestimated, while LLM abilities were underestimated. Using the same stimuli, we report a preregistered study comparing human responses in two conditions: one allowed rereading (replicating the original study), and one that restricted rereading (a more naturalistic comprehension test). Human accuracy dropped significantly when rereading was restricted (73%), falling below that of Falcon-180B-Chat (76%) and GPT-4 (81%). The newer GPT-o1 model achieves perfect accuracy. Results further show that both humans and models are disproportionately challenged by queries involving potentially reciprocal actions (e.g., kissing), suggesting shared pragmatic sensitivities rather than model-specific deficits. Additional analyses using Llama-2-70B log probabilities, a recoding of open-ended model responses, and grammaticality ratings of other sentences reveal systematic underestimation of model performance. We find that GPT-4o can align with either naive or expert grammaticality judgments, depending on prompt framing. These findings underscore the need for more careful experimental design and coding practices in LLM evaluation, and they challenge the assumption that current models are inherently weaker than humans at language comprehension.
- Abstract(参考訳): 近年の主張では、大きな言語モデル(LM)は、最小限の複雑な英文(Dentella et al , 2024)を解釈する際に人間を過小評価している。
ここでは,これらの知見を再考し,人間の能力は過大評価され,LSM能力は過小評価された。
同じ刺激を用いて、リリーディング(原研究の複製)とリリーディング(より自然主義的な理解テスト)の2つの条件でヒトの反応を比較した事前登録研究を報告する。
リリーディングが制限され(73%)、Falcon-180B-Chat (76%)、GPT-4 (81%)の精度は大幅に低下した。
より新しいGPT-o1モデルは完全な精度を達成する。
さらに、人間とモデルの両方が、潜在的な相互行為(例えば、キス)を含むクエリによって不均等に挑戦されていることを示し、モデル固有の欠点よりも実用的感性を共有することを示唆している。
Llama-2-70Bログ確率、オープンエンドモデル応答の復号化、その他の文の文法的評価による追加分析により、モデル性能の体系的過小評価が明らかになった。
GPT-4oは,素早いフレーミングによって,ナイーブな文法判断と専門家の文法判断のどちらでも一致できることがわかった。
これらの結果は、LLM評価におけるより慎重な実験設計とコーディングの実践の必要性を浮き彫りにし、現在のモデルは言語理解において人間よりも本質的に弱いという仮定に挑戦する。
関連論文リスト
- One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - Language in Vivo vs. in Silico: Size Matters but Larger Language Models Still Do Not Comprehend Language on a Par with Humans [1.8434042562191815]
本研究では,人間とモデルの違いがモデルサイズに寄与するかどうかを判断する上で,モデルスケーリングが果たす役割について検討する。
アナフォラ, 中心埋め込み, 比較, 負極性を含む文法判断タスクにおいて, 3つの大言語モデル(LLM)を検証した。
結果,ChatGPT-4の精度は,ChatGPT-4の精度が76%に対して80%であったのに対し,ChatGPT-4の精度は1つのタスク条件,すなわち文法文でのみ優れていた。
論文 参考訳(メタデータ) (2024-04-23T10:09:46Z) - Data-Efficient Alignment of Large Language Models with Human Feedback
Through Natural Language [31.0723480021355]
自然言語による人間のフィードバックをモデル化する際のデータ効率について検討する。
オープンソースLLM(例えばFalcon-40B-Instruct)を、自然言語における人間のフィードバックの比較的少ない部分で微調整する。
このモデルは,最強のLLMでも応答の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-11-24T15:20:36Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - SOUL: Towards Sentiment and Opinion Understanding of Language [96.74878032417054]
我々は、言語感覚とオピニオン理解(SOUL)と呼ばれる新しいタスクを提案する。
SOULは2つのサブタスクを通して感情理解を評価することを目的としている:レビュー(RC)と正当化生成(JG)。
論文 参考訳(メタデータ) (2023-10-27T06:48:48Z) - Testing AI on language comprehension tasks reveals insensitivity to underlying meaning [3.335047764053173]
LLM(Large Language Models)は、臨床支援や法的支援から、質問応答や教育まで幅広い分野で採用されている。
しかし、リバースエンジニアリングはモラベックのパラドックスによって拘束されており、簡単なスキルは難しい。
新たなベンチマークで7つの最先端モデルを体系的に評価する。
論文 参考訳(メタデータ) (2023-02-23T20:18:52Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。