論文の概要: Structural Biases for Improving Transformers on Translation into
Morphologically Rich Languages
- arxiv url: http://arxiv.org/abs/2208.06061v1
- Date: Thu, 11 Aug 2022 22:42:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-15 13:17:47.009433
- Title: Structural Biases for Improving Transformers on Translation into
Morphologically Rich Languages
- Title(参考訳): 形態的に豊かな言語への翻訳におけるトランスフォーマー改善のための構造的バイアス
- Authors: Paul Soulos, Sudha Rao, Caitlin Smith, Eric Rosen, Asli Celikyilmaz,
R. Thomas McCoy, Yichen Jiang, Coleman Haley, Roland Fernandez, Hamid
Palangi, Jianfeng Gao, Paul Smolensky
- Abstract要約: TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。
第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。
これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
- 参考スコア(独自算出の注目度): 120.74406230847904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine translation has seen rapid progress with the advent of
Transformer-based models. These models have no explicit linguistic structure
built into them, yet they may still implicitly learn structured relationships
by attending to relevant tokens. We hypothesize that this structural learning
could be made more robust by explicitly endowing Transformers with a structural
bias, and we investigate two methods for building in such a bias. One method,
the TP-Transformer, augments the traditional Transformer architecture to
include an additional component to represent structure. The second method
imbues structure at the data level by segmenting the data with morphological
tokenization. We test these methods on translating from English into
morphologically rich languages, Turkish and Inuktitut, and consider both
automatic metrics and human evaluations. We find that each of these two
approaches allows the network to achieve better performance, but this
improvement is dependent on the size of the dataset. In sum, structural
encoding methods make Transformers more sample-efficient, enabling them to
perform better from smaller amounts of data.
- Abstract(参考訳): 機械翻訳は変圧器ベースのモデルが登場して急速に進歩した。
これらのモデルには明確な言語構造が組み込まれていないが、関連するトークンに従えば暗黙的に構造的な関係を学ぶことができる。
構造バイアスのあるトランスフォーマーを明示的に内挿することで,この構造学習をより強固なものにすることができると仮定し,このバイアスで構築する2つの方法を検討した。
tp変換器(tp-transformer)は、従来のトランスフォーマーアーキテクチャを補強し、構造を表現する追加のコンポーネントを含む。
第2の方法は、形態素化によりデータを分割することにより、データレベルの構造を付与する。
トルコ語とイヌクティトゥット語を英語から形態学的に豊かな言語に翻訳し、自動測定と人的評価の両方について検討する。
これらの2つのアプローチによってネットワークのパフォーマンスは向上するが、この改善はデータセットのサイズに依存する。
結果として、構造的な符号化手法によってトランスフォーマはよりサンプル効率が向上し、少ないデータ量でパフォーマンスが向上する。
関連論文リスト
- Learning Syntax Without Planting Trees: Understanding When and Why Transformers Generalize Hierarchically [74.96551626420188]
自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、目に見えない構文構造を持つ文に一般化することが示されている。
本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動を引き起こす可能性のあるトレーニングについて検討する。
論文 参考訳(メタデータ) (2024-04-25T07:10:29Z) - Grokking of Hierarchical Structure in Vanilla Transformers [72.45375959893218]
トランスフォーマー言語モデルでは,極端に長い訓練期間を経て階層的に一般化できることが示される。
中間深度モデルは、非常に深い変圧器と非常に浅い変圧器の両方よりも良く一般化される。
論文 参考訳(メタデータ) (2023-05-30T04:34:13Z) - Characterizing Intrinsic Compositionality in Transformers with Tree
Projections [72.45375959893218]
トランスのようなニューラルモデルは、入力の異なる部分間で情報を任意にルーティングすることができる。
3つの異なるタスクに対するトランスフォーマーは、トレーニングの過程でより木のようなものになることを示す。
これらの木はモデル挙動を予測し、より木のようなモデルは構成的一般化のテストにおいてより良く一般化する。
論文 参考訳(メタデータ) (2022-11-02T17:10:07Z) - Syntax-guided Localized Self-attention by Constituency Syntactic
Distance [26.141356981833862]
本稿では,Transformerのための構文誘導型ローカライズ自己アテンションを提案する。
外部の選挙区から直接文法構造を組み込むことができる。
実験結果から,本モデルによる翻訳性能の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2022-10-21T06:37:25Z) - Transformer Grammars: Augmenting Transformer Language Models with
Syntactic Inductive Biases at Scale [31.293175512404172]
Transformer Grammarsは、Transformerの表現力、スケーラビリティ、強力なパフォーマンスを組み合わせたTransformer言語モデルのクラスです。
また, Transformer Grammars は, 構文に敏感な言語モデリング評価指標において, 各種の強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2022-03-01T17:22:31Z) - Structural Guidance for Transformer Language Models [24.00537240110055]
本研究では,トランスフォーマー言語モデルにおける構造的ガイダンスが,より人間らしい体系的言語一般化につながるかどうかを考察する。
実験結果から、生成的構造的監督がより堅牢で人間らしい言語的一般化を誘導できるという確固たる証拠が示唆された。
論文 参考訳(メタデータ) (2021-07-30T23:14:51Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文 参考訳(メタデータ) (2020-02-19T08:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。