論文の概要: GiLT: Augmenting Transformer Language Models with Dependency Graphs
- arxiv url: http://arxiv.org/abs/2605.15562v1
- Date: Fri, 15 May 2026 03:08:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 03:45:13.154025
- Title: GiLT: Augmenting Transformer Language Models with Dependency Graphs
- Title(参考訳): GiLT: 依存関係グラフによるトランスフォーマー言語モデルの拡張
- Authors: Tianyu Huang, Yida Zhao, Chuyan Zhou, Kewei Tu,
- Abstract要約: 言語構造を持つ変換器の強化は,言語モデルの構文一般化性能を効果的に向上させる。
本稿では、依存グラフを利用してトランスフォーマ言語モデルを拡張するグラフ拡散層トランスフォーマ言語モデル(GiLT)を提案する。
- 参考スコア(独自算出の注目度): 44.60563938748647
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Augmenting Transformers with linguistic structures effectively enhances the syntactic generalization performance of language models. Previous work in this direction focuses on syntactic tree structures of languages, in particular constituency tree structures. We propose Graph-Infused Layers Transformer Language Model (GiLT) which leverages dependency graphs for augmenting Transformer language models. Unlike most previous work, GiLT does not insert extra structural tokens in language modeling; instead, it injects structural information into language modeling by modulating attention weights in the Transformer with features extracted from the dependency graph that is incrementally constructed along with token prediction. In our experiments, GiLT with semantic dependency graphs achieves better syntactic generalization while maintaining competitive perplexity in comparison with Transformer language model baselines. In addition, GiLT can be finetuned from a pretrained language model to achieve improved downstream task performance. Our code is released at https://github.com/cookie-pie-oops/GiLT-LM.
- Abstract(参考訳): 言語構造を持つ変換器の強化は,言語モデルの構文一般化性能を効果的に向上させる。
この方向のこれまでの研究は、言語の構文木構造、特に選挙区木構造に焦点を当てていた。
本稿では、依存グラフを利用してトランスフォーマ言語モデルを拡張するグラフ拡散層トランスフォーマ言語モデル(GiLT)を提案する。
従来の作業とは異なり、GiLTは言語モデリングに余分な構造的トークンを挿入せず、代わりにトークン予測とともに漸進的に構築される依存性グラフから抽出された特徴でTransformerの注意重みを調節することで、言語モデリングに構造的情報を注入する。
本実験では, 意味依存グラフを用いた GiLT は, Transformer 言語モデルベースラインと比較して, 競争上の難易度を維持しつつ, より構文的一般化を実現する。
さらに、トレーニング済みの言語モデルからGiLTを微調整することで、下流タスクのパフォーマンスを向上させることができる。
私たちのコードはhttps://github.com/cookie-pie-oops/GiLT-LMで公開されています。
関連論文リスト
- Dependency Transformer Grammars: Integrating Dependency Structures into Transformer Language Models [42.46104516313823]
依存性変換文法(Dependency Transformer Grammars、DTG)は、依存関係ベースの帰納バイアスを持つトランスフォーマー言語モデルの新しいクラスである。
DTGは制約された注意パターンで依存性遷移システムをシミュレートする。
Transformer言語モデルベースラインと同等のパープレキシティを維持しながら、より優れた一般化を実現する。
論文 参考訳(メタデータ) (2024-07-24T16:38:38Z) - Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。
我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文 参考訳(メタデータ) (2022-09-08T14:12:15Z) - Structural Biases for Improving Transformers on Translation into
Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。
第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。
これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文 参考訳(メタデータ) (2022-08-11T22:42:24Z) - Transformer Grammars: Augmenting Transformer Language Models with
Syntactic Inductive Biases at Scale [31.293175512404172]
Transformer Grammarsは、Transformerの表現力、スケーラビリティ、強力なパフォーマンスを組み合わせたTransformer言語モデルのクラスです。
また, Transformer Grammars は, 構文に敏感な言語モデリング評価指標において, 各種の強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2022-03-01T17:22:31Z) - Structural Guidance for Transformer Language Models [24.00537240110055]
本研究では,トランスフォーマー言語モデルにおける構造的ガイダンスが,より人間らしい体系的言語一般化につながるかどうかを考察する。
実験結果から、生成的構造的監督がより堅牢で人間らしい言語的一般化を誘導できるという確固たる証拠が示唆された。
論文 参考訳(メタデータ) (2021-07-30T23:14:51Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。