論文の概要: Exploring Gaps in the APS: Direct Minimal Pair Analysis in LLM Syntactic Assessments
- arxiv url: http://arxiv.org/abs/2510.06001v1
- Date: Tue, 07 Oct 2025 15:03:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.296288
- Title: Exploring Gaps in the APS: Direct Minimal Pair Analysis in LLM Syntactic Assessments
- Title(参考訳): APSにおけるギャップ探索: LLM構文評価における極小ペア解析
- Authors: Timothy Pistotti, Jason Brown, Michael Witbrock,
- Abstract要約: 本論文は, 直接最小対アプローチにより, より高い診断透過性が得られることを主張する。
GPT-2は4つの試験条件のすべてで成功し、フィラーギャップライセンスの原則に関する堅牢な知識が示される。
- 参考スコア(独自算出の注目度): 9.161468569386708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies probing the Argument from the Poverty of the Stimulus (APS) have applied Large Language Models (LLMs) to test the learnability of complex syntax through surprisal-based metrics. However, divergent conclusions raise questions concerning the insights these metrics offer. While Wilcox et al. (2024) used direct minimal pair comparisons (the "wh-effect") to demonstrate that models successfully generalise knowledge of filler-gap dependencies, Lan et al. (2024) used a Difference-in-Differences (DiD) metric and found that models largely fail on parasitic gaps (PGs). This paper argues that the direct minimal pair approach offers greater diagnostic transparency. We demonstrate this by generating a full 8-permutation paradigm of refined PG stimuli and evaluating the GPT-2 model used in previous studies with a systematic Wilcox-style wh-effect analysis. Our results show that GPT-2 succeeds across all four tested conditions, indicating robust knowledge of filler-gap licensing principles even in complex PG environments. This finding, which contrasts with the more ambiguous results from DiD-style metrics, suggests that the choice of evaluation metric is critical for assessing an LLM's syntactic competence.
- Abstract(参考訳): Poverty of the Stimulus (APS) の論拠を裏付ける最近の研究は、大規模言語モデル (LLM) を用いて、素数ベースのメトリクスを通して複雑な構文の学習可能性をテストする。
しかし、異なる結論は、これらの指標がもたらす洞察に関する疑問を提起する。
Wilcox et al (2024) は直接最小対比較("wh-エフェクト")を用いてフィラーギャップ依存の知識の一般化に成功したことを示したが、Lan et al (2024) は差分差分差分(DiD)メートル法を用い、モデルが寄生ギャップ(PG)でほとんど失敗することを発見した。
本論文は, 直接最小対アプローチにより, より高い診断透過性が得られることを主張する。
改良PG刺激の完全な8置換パラダイムを生成し、系統的なWilcoxスタイルの捕鯨効果分析を用いて、従来の研究で用いられたGPT-2モデルを評価することにより、これを実証する。
その結果, 複雑なPG環境においても, GPT-2は4つの試験条件すべてで成功し, フィラーギャップのライセンス原則の堅牢な知識が示唆された。
この発見は、DDスタイルのメトリクスのより曖昧な結果とは対照的に、LLMの構文能力を評価する上で評価基準の選択が重要であることを示唆している。
関連論文リスト
- Evaluating The Impact of Stimulus Quality in Investigations of LLM Language Performance [9.161468569386708]
本稿では,語彙的曖昧さや構造的複雑さを含む刺激特性がモデル性能を損なう可能性があるという仮説を考察する。
GPT-2に着目し, 構文予測におけるLLM能力の再評価手法を提案する。
以上の結果より, GPT-2はこれらの改良PG刺激に対して, 基線よりも顕著に改善したことが示唆された。
論文 参考訳(メタデータ) (2025-10-07T15:16:47Z) - From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs [58.02809208460186]
デモとしてDeepSeek-R1の高品質なトレースを使って、このパラドックスを再検討する。
デモが最適であっても、より多くの例を加えることで、常に精度が低下することがわかった。
デモを明示的で再利用可能な洞察に変換するシーケンシャルなテストタイム手順であるInsight-to-solve(I2S)を紹介します。
論文 参考訳(メタデータ) (2025-09-27T08:59:31Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - Can Knowledge Graphs Make Large Language Models More Trustworthy? An Empirical Study Over Open-ended Question Answering [30.12049172634714]
我々は,知識グラフを付加した大規模言語モデルの評価に特化して設計されたベンチマークであるOKGQAを紹介する。
OKGQAは様々な質問タイプを通して実践的な複雑さを反映し、幻覚率と推論の改善の両方を定量化するためにメトリクスを取り入れている。
我々は,KGのセマンティクスと構造が意図的に乱れ,汚染された場合のモデル性能を評価するためのベンチマーク変種OKGQA-Pを提案する。
論文 参考訳(メタデータ) (2024-10-10T16:29:21Z) - Prompting or Fine-tuning? Exploring Large Language Models for Causal Graph Validation [0.0]
本研究では,因果グラフの因果性を評価するための大規模言語モデルの有用性について検討する。
本研究では,(1)ゼロショットと少数ショットの因果推論のためのプロンプトベース手法,(2)因果関係予測タスクのための微調整言語モデルの比較を行った。
論文 参考訳(メタデータ) (2024-05-29T09:06:18Z) - Quantifying Semantic Emergence in Language Models [31.608080868988825]
大規模言語モデル (LLM) は意味論的意味を捉える特別な能力として広く認識されている。
本研究では,入力トークンから意味を抽出するLLMの能力を測定するために,量的指標である情報創発(IE)を導入する。
論文 参考訳(メタデータ) (2024-05-21T09:12:20Z) - Edinburgh Clinical NLP at SemEval-2024 Task 2: Fine-tune your model unless you have access to GPT-4 [10.01547158445743]
各種大規模言語モデル (LLM) を複数戦略で評価する。例えば、Chain-of-Thought, In-Context Learning, Efficient Fine-Tuning (PEFT) などである。
その結果,2つのPEFTアダプタはF1スコア(+0.0346)とLLMの一貫性(+0.152)を改善した。
3つの指標を平均して、GPT-4は0.8328との競争で1位となった。
論文 参考訳(メタデータ) (2024-03-30T22:27:21Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。