論文の概要: Understanding Syntactic Generalization in Structure-inducing Language Models
- arxiv url: http://arxiv.org/abs/2508.07969v1
- Date: Mon, 11 Aug 2025 13:29:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.114003
- Title: Understanding Syntactic Generalization in Structure-inducing Language Models
- Title(参考訳): 構造誘導型言語モデルにおける構文一般化の理解
- Authors: David Arps, Hassan Sajjad, Laura Kallmeyer,
- Abstract要約: 構造誘導言語モデル(SiLM)は、自己教師型言語モデリングタスクに基づいて訓練される。
SiLMは入力を処理する際に副産物として階層的な文表現を誘導する。
自然言語(英語)コーパスと合成ブラケット表現を併用した3種類のSiLMアーキテクチャについて検討した。
- 参考スコア(独自算出の注目度): 15.419603273515786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structure-inducing Language Models (SiLM) are trained on a self-supervised language modeling task, and induce a hierarchical sentence representation as a byproduct when processing an input. A wide variety of SiLMs have been proposed. However, these have typically been evaluated on a relatively small scale, and evaluation of these models has systematic gaps and lacks comparability. In this work, we study three different SiLM architectures using both natural language (English) corpora and synthetic bracketing expressions: Structformer (Shen et al., 2021), UDGN (Shen et al., 2022) and GPST (Hu et al., 2024). We compare them with respect to (i) properties of the induced syntactic representations (ii) performance on grammaticality judgment tasks, and (iii) training dynamics. We find that none of the three architectures dominates across all evaluation metrics. However, there are significant differences, in particular with respect to the induced syntactic representations. The Generative Pretrained Structured Transformer (GPST; Hu et al. 2024) performs most consistently across evaluation settings, and outperforms the other models on long-distance dependencies in bracketing expressions. Furthermore, our study shows that small models trained on large amounts of synthetic data provide a useful testbed for evaluating basic model properties.
- Abstract(参考訳): 構造誘導言語モデル(SiLM)は、自己教師型言語モデリングタスクに基づいて訓練され、入力を処理する際に副産物として階層的な文表現を誘導する。
様々なSiLMが提案されている。
しかしながら、これらのモデルは通常比較的小さなスケールで評価され、これらのモデルの評価には体系的なギャップがあり、互換性に欠ける。
本研究では,Shen et al ,2021),UDGN (Shen et al ,2022),GPST (Hu et al ,2024) の3種類のSiLMアーキテクチャを,自然言語コーパスと合成ブラケット表現の両方を用いて検討した。
私たちはそれらと比較する
i) 誘導的構文表現の特性
(二)文法判断作業におけるパフォーマンス、及び
(3) 力学の訓練。
3つのアーキテクチャのうち、どのアーキテクチャもすべての評価指標を支配していないことが分かりました。
しかし、特に誘導された構文表現に関して、大きな違いがある。
Generative Pretrained Structured Transformer (GPST; Hu et al 2024) は、評価設定において最も一貫して動作し、ブラッキング式における長距離依存性において他のモデルよりも優れている。
さらに,本研究では,大量の合成データに基づいて訓練した小型モデルが,基礎モデル特性を評価する上で有用なテストベッドであることを示した。
関連論文リスト
- Scaling Laws and Representation Learning in Simple Hierarchical Languages: Transformers vs. Convolutional Architectures [49.19753720526998]
合成データセット上でのニューラルネットワーク性能に関する理論的スケーリング法則を導出する。
局所性と重み共有によって生成過程の構造が整った畳み込みネットワークは、性能の高速化を享受できることを示す。
この発見は、ニューラルネットワークのスケーリング法則に基づくアーキテクチャ上のバイアスを明らかにし、モデルアーキテクチャとデータの統計的性質の間の相互作用によって表現学習がどのように形成されるかを強調している。
論文 参考訳(メタデータ) (2025-05-11T17:44:14Z) - Linguistic Structure Induction from Language Models [1.8130068086063336]
この論文は、教師なし環境で言語モデル(LM)から選挙区構造と依存関係構造を生成することに焦点を当てている。
本稿では,エンコーダネットワークにトランスフォーマーアーキテクチャを組み込んだStructFormer(SF)について詳細に検討し,その構成と依存性について述べる。
この分野の課題を分析し、対処するための6つの実験を提示します。
論文 参考訳(メタデータ) (2024-03-11T16:54:49Z) - Split and Rephrase with Large Language Models [2.499907423888049]
Split and Rephrase (SPRP) タスクは、複雑な文を短い文法文の列に分割する。
タスク上の大きな言語モデルを評価し、主要なメトリクスに基づいて、技術の現状を大幅に改善できることを示します。
論文 参考訳(メタデータ) (2023-12-18T10:16:37Z) - SLOG: A Structural Generalization Benchmark for Semantic Parsing [68.19511282584304]
合成一般化ベンチマークの目的は、モデルがいかにして新しい複雑な言語表現に一般化するかを評価することである。
既存のベンチマークは、しばしば語彙一般化に焦点を当て、訓練に精通した構文構造における新しい語彙項目の解釈は、しばしば不足している。
SLOGは,COGSを拡張したセマンティック解析データセットである。
論文 参考訳(メタデータ) (2023-10-23T15:39:09Z) - A Machine Learning Approach to Classifying Construction Cost Documents
into the International Construction Measurement Standard [0.0]
原価文書で提供される自然言語記述を分類する最初の自動モデル「Bills of Quantities」を紹介した。
英国中の24の大規模なインフラ建設プロジェクトから収集された5万件以上の項目のデータセットから学習する。
論文 参考訳(メタデータ) (2022-10-24T11:35:53Z) - Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。
我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。
トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文 参考訳(メタデータ) (2022-10-16T04:35:58Z) - Compositional Generalization Requires Compositional Parsers [69.77216620997305]
直近のCOGSコーパスにおける構成原理によって導かれるシーケンス・ツー・シーケンスモデルとモデルを比較した。
構造一般化は構成一般化の重要な尺度であり、複雑な構造を認識するモデルを必要とする。
論文 参考訳(メタデータ) (2022-02-24T07:36:35Z) - Structural Supervision Improves Few-Shot Learning and Syntactic
Generalization in Neural Language Models [47.42249565529833]
人間は最小限の経験から単語に関する構造的特性を学ぶことができる。
我々は、現代のニューラル言語モデルがこの行動を英語で再現する能力を評価する。
論文 参考訳(メタデータ) (2020-10-12T14:12:37Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z) - A Systematic Assessment of Syntactic Generalization in Neural Language
Models [20.589737524626745]
本稿では,ニューラルネットワークモデルの構文的知識を体系的に評価する。
モデルアーキテクチャによる構文一般化性能には大きな違いがある。
また, この結果から, パープレキシティと構文一般化性能の解離が明らかとなった。
論文 参考訳(メタデータ) (2020-05-07T18:35:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。