論文の概要: Comparing human and language models sentence processing difficulties on complex structures
- arxiv url: http://arxiv.org/abs/2510.07141v1
- Date: Wed, 08 Oct 2025 15:42:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.599857
- Title: Comparing human and language models sentence processing difficulties on complex structures
- Title(参考訳): 複雑な構造における人・言語モデルによる文処理困難度の比較
- Authors: Samuel Joseph Amouyal, Aya Meltzer-Asscher, Jonathan Berant,
- Abstract要約: 人間の言語モデルと大規模言語モデル(LLM)の文理解を7つの言語構造で比較する。
以上の結果から,LLMはターゲット構造,特に庭道(GP)文に苦しむことが明らかとなった。
目標文とベースライン文のパフォーマンスを比較すると、人間で観察される性能ギャップはLLMに比例する。
- 参考スコア(独自算出の注目度): 29.653284162616135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) that fluently converse with humans are a reality - but do LLMs experience human-like processing difficulties? We systematically compare human and LLM sentence comprehension across seven challenging linguistic structures. We collect sentence comprehension data from humans and five families of state-of-the-art LLMs, varying in size and training procedure in a unified experimental framework. Our results show LLMs overall struggle on the target structures, but especially on garden path (GP) sentences. Indeed, while the strongest models achieve near perfect accuracy on non-GP structures (93.7% for GPT-5), they struggle on GP structures (46.8% for GPT-5). Additionally, when ranking structures based on average performance, rank correlation between humans and models increases with parameter count. For each target structure, we also collect data for their matched baseline without the difficult structure. Comparing performance on the target vs. baseline sentences, the performance gap observed in humans holds for LLMs, with two exceptions: for models that are too weak performance is uniformly low across both sentence types, and for models that are too strong the performance is uniformly high. Together, these reveal convergence and divergence in human and LLM sentence comprehension, offering new insights into the similarity of humans and LLMs.
- Abstract(参考訳): 言語モデル(LLMs)は、人間と流動的に会話するが、LLMは人間のような処理困難を経験するだろうか?
我々は,7つの難解な言語構造に対して,人文とLLM文の理解を体系的に比較した。
我々は,人間と最先端のLLMの5家族から文理解データを収集する。
以上の結果から,LLMはターゲット構造,特に庭道(GP)文に苦戦していることが明らかとなった。
実際、最強モデルは非GP構造(GPT-5では93.7%)でほぼ完全な精度を達成しているが、GP構造(GPT-5では46.8%)では苦戦している。
また、平均性能に基づくランキング構造では、パラメータ数に応じて人間とモデルのランク相関が増加する。
また,各対象構造に対して,一致したベースラインのデータを,難解な構造を伴わずに収集する。
目標文とベースライン文のパフォーマンスを比較すると、人間で観察される性能ギャップは、LLMには2つの例外がある: 弱い性能のモデルでは、両文タイプで一様に低く、強すぎるモデルでは、パフォーマンスが一様に高い。
これらとともに、人間とLLMの文理解における収束と多様化を明らかにし、人間とLLMの類似性に関する新たな洞察を提供する。
関連論文リスト
- Measuring Scalar Constructs in Social Science with LLMs [48.92998035333579]
大規模言語モデルにおけるスカラー構造の測定手法の評価を行った。
LLMにスコアを直接出力させるよりも、ペアワイズ比較の方が優れた測定結果が得られることが分かりました。
訓練ペアを1,000個も持たない小型モデルは、誘導LDMの性能にマッチまたは超えることができる。
論文 参考訳(メタデータ) (2025-09-03T08:19:13Z) - A suite of LMs comprehend puzzle statements as well as humans [13.386647125288516]
本研究では,ヒトの反応を2つの条件で比較した事前登録研究を報告した。
リリーディングが制限されると、人間の精度は大幅に低下し、Falcon-180B-ChatやGPT-4よりも低下した。
結果は、モデル固有の欠陥よりも、実用的感受性の共有を示唆している。
論文 参考訳(メタデータ) (2025-05-13T22:18:51Z) - ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models [75.05436691700572]
明示的な因果推論において,LLM(Large Language Models)を評価するための新しいデータセットであるExpliCaを紹介する。
ExpliCa上で7つの商用およびオープンソース LLM をテストしました。
驚くべきことに、モデルは因果関係と時間的関係を関連付ける傾向にあり、そのパフォーマンスはイベントの言語的順序にも強く影響される。
論文 参考訳(メタデータ) (2025-02-21T14:23:14Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - When the LM misunderstood the human chuckled: Analyzing garden path effects in humans and language models [41.929897900569905]
現代の大規模言語モデル(LLM)は多くの言語タスクにおいて人間のような能力を示している。
園路構成を用いた文理解課題において,これら2つを比較した。
以上の結果から, LLMとヒトは, シナティクスの複雑さに苦しむことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-13T13:19:33Z) - Learning to Reduce: Towards Improving Performance of Large Language Models on Structured Data [39.29778853025738]
大規模言語モデル(LLM)は、幅広い下流タスクにおいて有能なパフォーマンスを実現している。
本稿では、オン・ポリシー・ラーニングを用いて言語モデルを微調整し、入力された構造化データの縮小版を生成するフレームワークであるLearning to Reduceを提案する。
論文 参考訳(メタデータ) (2024-07-03T01:51:50Z) - Learning to Reduce: Optimal Representations of Structured Data in
Prompting Large Language Models [42.16047343029512]
大規模言語モデル(LLM)は汎用AIエージェントとして広く利用されている。
本稿では,入力コンテキストの縮小バージョンを生成するために,言語モデルを微調整するフレームワークであるLearning to Reduceを提案する。
入力コンテキストから関連する証拠を選択する際に,本モデルが同等の精度を達成することを示す。
論文 参考訳(メタデータ) (2024-02-22T00:41:23Z) - Using Natural Language Explanations to Improve Robustness of In-context Learning [35.18010811754959]
大規模言語モデル(LLM)は、文脈内学習(ICL)を通じて多くのタスクを抽出できる
自然言語説明法(NLE)によるICLの強化は,敵対的データセット上でのLLMの堅牢性を向上させるかを検討する。
論文 参考訳(メタデータ) (2023-11-13T18:49:13Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。