論文の概要: Probing Syntax in Large Language Models: Successes and Remaining Challenges
- arxiv url: http://arxiv.org/abs/2508.03211v2
- Date: Fri, 08 Aug 2025 18:56:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 13:12:52.260567
- Title: Probing Syntax in Large Language Models: Successes and Remaining Challenges
- Title(参考訳): 大規模言語モデルにおける構文の探索 - 成功と残る課題
- Authors: Pablo J. Diego-Simón, Emmanuel Chemla, Jean-Rémi King, Yair Lakretz,
- Abstract要約: 構造的要因や統計的要因がこれらの構文的表現に体系的に影響を及ぼすかどうかは不明である。
3つの制御されたベンチマーク上で構造プローブの詳細な解析を行う。
- 参考スコア(独自算出の注目度): 7.9494253785082405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The syntactic structures of sentences can be readily read-out from the activations of large language models (LLMs). However, the ``structural probes'' that have been developed to reveal this phenomenon are typically evaluated on an indiscriminate set of sentences. Consequently, it remains unclear whether structural and/or statistical factors systematically affect these syntactic representations. To address this issue, we conduct an in-depth analysis of structural probes on three controlled benchmarks. Our results are three-fold. First, structural probes are biased by a superficial property: the closer two words are in a sentence, the more likely structural probes will consider them as syntactically linked. Second, structural probes are challenged by linguistic properties: they poorly represent deep syntactic structures, and get interfered by interacting nouns or ungrammatical verb forms. Third, structural probes do not appear to be affected by the predictability of individual words. Overall, this work sheds light on the current challenges faced by structural probes. Providing a benchmark made of controlled stimuli to better evaluate their performance.
- Abstract(参考訳): 文の構文構造は、大きな言語モデル(LLM)の活性化から容易に読み取れる。
しかし、この現象を明らかにするために開発された「構造プローブ」は、典型的には無差別な文群で評価される。
その結果、構造的および統計的要因がこれらの構文的表現に体系的に影響を及ぼすかどうかは不明である。
この問題に対処するため、3つの制御されたベンチマーク上で構造プローブの詳細な解析を行う。
私たちの結果は3倍です。
まず、構造プローブは表面的な性質によってバイアスを受けており、より近い2つの単語は文の中にあり、より可能性の高い構造プローブはそれらが構文的に結びついているとみなす。
第二に、構造的プローブは言語的特性によって挑戦され、それらが深い構文的構造を不十分に表現し、相互作用する名詞や非文法的な動詞形式によって妨害される。
第三に、構造プローブは個々の単語の予測可能性に影響されない。
全体として、この研究は構造探査が直面する現在の課題に光を当てている。
パフォーマンスをよりよく評価するために、コントロールされた刺激で作られたベンチマークを提供する。
関連論文リスト
- Mechanisms vs. Outcomes: Probing for Syntax Fails to Explain Performance on Targeted Syntactic Evaluations [33.04242471060053]
大規模言語モデル(LLM)は、テキストの処理と生成において、構文の堅牢な熟達を示す。
モデルの探索精度が下流の構文的性能を確実に予測するかどうかについては、網羅的な研究はまだ確定していない。
論文 参考訳(メタデータ) (2025-06-20T01:46:50Z) - Fundamental Principles of Linguistic Structure are Not Represented by o3 [3.335047764053173]
O3モデルは基本的なフレーズ構造規則を一般化できない。
正しく評価し、アクセプタビリティのダイナミクスを説明するのに失敗する。
受け入れられないセマンティクスを生成する命令と受け入れられない構文出力を生成する命令を区別できない。
論文 参考訳(メタデータ) (2025-02-15T23:53:31Z) - Linguistic Structure Induction from Language Models [1.8130068086063336]
この論文は、教師なし環境で言語モデル(LM)から選挙区構造と依存関係構造を生成することに焦点を当てている。
本稿では,エンコーダネットワークにトランスフォーマーアーキテクチャを組み込んだStructFormer(SF)について詳細に検討し,その構成と依存性について述べる。
この分野の課題を分析し、対処するための6つの実験を提示します。
論文 参考訳(メタデータ) (2024-03-11T16:54:49Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - "You Are An Expert Linguistic Annotator": Limits of LLMs as Analyzers of
Abstract Meaning Representation [60.863629647985526]
文意味構造の解析において, GPT-3, ChatGPT, および GPT-4 モデルの成功と限界について検討した。
モデルはAMRの基本形式を確実に再現でき、しばしばコアイベント、引数、修飾子構造をキャプチャできる。
全体としては,これらのモデルではセマンティック構造の側面を捉えることができるが,完全に正確なセマンティック解析や解析をサポートする能力には重要な制限が残されている。
論文 参考訳(メタデータ) (2023-10-26T21:47:59Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Towards Robust NLG Bias Evaluation with Syntactically-diverse Prompts [38.69716232707304]
自然言語生成システム(NLG)におけるバイアス評価のための頑健な方法論を提案する。
以前の研究では、様々な人口集団に言及した固定された手作りのプレフィックステンプレートを使用して、バイアス分析のための継続を生成するようモデルに促していた。
この問題を解析するために,異なる構文構造でプロンプトを言い換え,これらを用いてNLGシステムにおける人口統計バイアスを評価する。
論文 参考訳(メタデータ) (2022-12-03T22:11:17Z) - Does BERT really agree ? Fine-grained Analysis of Lexical Dependence on
a Syntactic Task [70.29624135819884]
目的の構文テンプレート上で,BERTが語彙非依存の主観値数アグリーメント(NA)を実行できる範囲について検討した。
名詞文では,単純なテンプレートに対してモデルがよく一般化されるが,1つのアトラクターが存在する場合,語彙非依存の構文一般化を行うことができないことが示唆された。
論文 参考訳(メタデータ) (2022-04-14T11:33:15Z) - Syntactic Perturbations Reveal Representational Correlates of
Hierarchical Phrase Structure in Pretrained Language Models [22.43510769150502]
文レベルの構文のどの側面がベクターベースの言語表現によってキャプチャされるのかは、完全には分かっていない。
このプロセスでは,トランスフォーマーが文のより大きな部分の層に感性を持たせることが示され,階層的な句構造が重要な役割を果たしている。
論文 参考訳(メタデータ) (2021-04-15T16:30:31Z) - A Tale of a Probe and a Parser [74.14046092181947]
言語のニューラルモデルにエンコードされている言語情報の計測は、NLPで人気が高まっている。
研究者は、他のモデルの出力から言語構造を抽出するために設計された教師付きモデル"プローブ"をトレーニングすることで、この企業にアプローチする。
そのようなプローブの1つは、構文情報が文脈化された単語表現でエンコードされる範囲を定量化するために設計された構造プローブである。
論文 参考訳(メタデータ) (2020-05-04T16:57:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。