論文の概要: Derivational Probing: Unveiling the Layer-wise Derivation of Syntactic Structures in Neural Language Models
- arxiv url: http://arxiv.org/abs/2506.21861v1
- Date: Fri, 27 Jun 2025 02:29:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.056179
- Title: Derivational Probing: Unveiling the Layer-wise Derivation of Syntactic Structures in Neural Language Models
- Title(参考訳): 導出的推論:ニューラルネットワークモデルにおける構文構造の階層的導出
- Authors: Taiga Someya, Ryo Yoshida, Hitomi Yanaka, Yohei Oseki,
- Abstract要約: 本稿では,マイクロシンタクティック構造とマクロシンタクティック構造がどのように構築されているかを調べるために導出型プローブを提案する。
マイクロシンタクティック構造は下層に出現し、徐々に高層にコヒーレントなマクロシンタクティック構造に統合される。
- 参考スコア(独自算出の注目度): 16.97687131562374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has demonstrated that neural language models encode syntactic structures in their internal representations, yet the derivations by which these structures are constructed across layers remain poorly understood. In this paper, we propose Derivational Probing to investigate how micro-syntactic structures (e.g., subject noun phrases) and macro-syntactic structures (e.g., the relationship between the root verbs and their direct dependents) are constructed as word embeddings propagate upward across layers. Our experiments on BERT reveal a clear bottom-up derivation: micro-syntactic structures emerge in lower layers and are gradually integrated into a coherent macro-syntactic structure in higher layers. Furthermore, a targeted evaluation on subject-verb number agreement shows that the timing of constructing macro-syntactic structures is critical for downstream performance, suggesting an optimal timing for integrating global syntactic information.
- Abstract(参考訳): 近年の研究では、ニューラルネットワークモデルが構文構造を内部表現にエンコードしていることが証明されているが、これらの構造が層にまたがって構築される導出はいまだに理解されていない。
本稿では,マイクロシンタクティック構造(例:主語名詞句)とマクロシンタクティック構造(例:根動詞とその直接的な依存関係)が,層をまたがって上向きに伝播する単語埋め込みとしてどのように構築されているかを検討する。
マイクロシンタクティック構造は下層に出現し、徐々に高層にコヒーレントなマクロシンタクティック構造に統合される。
さらに,大域的シンタクティック情報の統合に最適なタイミングを示唆し,大域的シンタクティック構造構築のタイミングが下流のパフォーマンスに重要であることを示す。
関連論文リスト
- Hierarchical Lexical Manifold Projection in Large Language Models: A Novel Mechanism for Multi-Scale Semantic Representation [0.0]
構造的階層的埋め込みをトランスフォーマーベースのアーキテクチャに統合することで、語彙表現に対する洗練されたアプローチが導入された。
トークンを構造化多様体にマッピングする射影機構は、改善された語彙アライメントを提供する。
埋め込みの洗練された階層構造は、語彙モデリングにおいてより大きな解釈可能性をもたらす。
論文 参考訳(メタデータ) (2025-02-08T00:49:32Z) - Compositional Structures in Neural Embedding and Interaction Decompositions [101.40245125955306]
ニューラルネットワークにおけるベクトル埋め込みにおける線形代数構造間の基本的な対応について述べる。
相互作用分解」の観点から構成構造の特徴づけを導入する。
モデルの表現の中にそのような構造が存在するためには、必要かつ十分な条件を確立する。
論文 参考訳(メタデータ) (2024-07-12T02:39:50Z) - Linguistic Structure Induction from Language Models [1.8130068086063336]
この論文は、教師なし環境で言語モデル(LM)から選挙区構造と依存関係構造を生成することに焦点を当てている。
本稿では,エンコーダネットワークにトランスフォーマーアーキテクチャを組み込んだStructFormer(SF)について詳細に検討し,その構成と依存性について述べる。
この分野の課題を分析し、対処するための6つの実験を提示します。
論文 参考訳(メタデータ) (2024-03-11T16:54:49Z) - Large Language Model-driven Meta-structure Discovery in Heterogeneous Information Network [29.149367323751413]
進化過程に推論を統合するメタ構造探索フレームワークReStructを提案する。
ReStructは推薦タスクとノード分類タスクの両方で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-02-18T09:21:12Z) - Unsupervised Chunking with Hierarchical RNN [62.15060807493364]
本稿では,非階層的手法で単語をグループ化する構文的タスクであるチャンキングに対する教師なしアプローチを紹介する。
本稿では,単語-チャンク・チャンク-文合成をモデル化した2層階層型階層型リカレントニューラルネットワーク(HRNN)を提案する。
CoNLL-2000データセットの実験では、既存の教師なし手法よりも顕著な改善が見られ、フレーズF1スコアが最大6ポイント向上した。
論文 参考訳(メタデータ) (2023-09-10T02:55:12Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部の動作や推論メカニズムを理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがCFG定義階層を正確に学習し、推論し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - StrAE: Autoencoding for Pre-Trained Embeddings using Explicit Structure [5.2869308707704255]
StrAEは構造化オートエンコーダフレームワークであり、明示的な構造に厳格に固執することで、マルチレベル表現の効果的な学習を可能にする。
本研究の結果は,入力として提供される構造に直接的な関連性があることを示し,既存のツリーモデルではそうではないことを示す。
次に、StrAEを拡張して、単純なローカライズ・マージアルゴリズムを用いてモデルが独自の構成を定義する。
論文 参考訳(メタデータ) (2023-05-09T16:20:48Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。
我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。
トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文 参考訳(メタデータ) (2022-10-16T04:35:58Z) - Probing for Constituency Structure in Neural Language Models [11.359403179089817]
我々は、Penn Treebank (PTB)で表される構成構造に焦点をあてる。
4つの事前訓練されたトランスフォーマーLMが,我々の探索作業において高い性能を得ることがわかった。
完全な選挙区木をLM表現から線形に分離できることを示す。
論文 参考訳(メタデータ) (2022-04-13T07:07:37Z) - Compositional Generalization Requires Compositional Parsers [69.77216620997305]
直近のCOGSコーパスにおける構成原理によって導かれるシーケンス・ツー・シーケンスモデルとモデルを比較した。
構造一般化は構成一般化の重要な尺度であり、複雑な構造を認識するモデルを必要とする。
論文 参考訳(メタデータ) (2022-02-24T07:36:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。