論文の概要: Tree-structured Attention with Hierarchical Accumulation
- arxiv url: http://arxiv.org/abs/2002.08046v1
- Date: Wed, 19 Feb 2020 08:17:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 12:59:41.264122
- Title: Tree-structured Attention with Hierarchical Accumulation
- Title(参考訳): 階層的蓄積を伴う木構造的注意
- Authors: Xuan-Phi Nguyen, Shafiq Joty, Steven C.H. Hoi, Richard Socher
- Abstract要約: 階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
- 参考スコア(独自算出の注目度): 103.47584968330325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Incorporating hierarchical structures like constituency trees has been shown
to be effective for various natural language processing (NLP) tasks. However,
it is evident that state-of-the-art (SOTA) sequence-based models like the
Transformer struggle to encode such structures inherently. On the other hand,
dedicated models like the Tree-LSTM, while explicitly modeling hierarchical
structures, do not perform as efficiently as the Transformer. In this paper, we
attempt to bridge this gap with "Hierarchical Accumulation" to encode parse
tree structures into self-attention at constant time complexity. Our approach
outperforms SOTA methods in four IWSLT translation tasks and the WMT'14
English-German translation task. It also yields improvements over Transformer
and Tree-LSTM on three text classification tasks. We further demonstrate that
using hierarchical priors can compensate for data shortage, and that our model
prefers phrase-level attentions over token-level attentions.
- Abstract(参考訳): 選挙区木のような階層構造を組み込むことは、様々な自然言語処理(NLP)タスクに有効であることが示されている。
しかし、Transformerのような最先端(SOTA)シーケンスベースのモデルは、そのような構造を本質的にエンコードするのに苦労していることは明らかである。
一方、Tree-LSTMのような専用モデルは、階層構造を明示的にモデル化する一方で、Transformerほど効率的に動作しない。
本稿では,このギャップを階層的蓄積(hierarchical Accumulation)で埋めて,解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
また、3つのテキスト分類タスクでTransformerとTree-LSTMよりも改善されている。
さらに,階層的優先順位を用いることでデータ不足を補償できることを示すとともに,トークンレベルの注意よりもフレーズレベルの注意を優先することを示す。
関連論文リスト
- Adaptive Large Language Models By Layerwise Attention Shortcuts [46.76681147411957]
LLMライクなセットアップにより、最終レイヤはアテンションメカニズムを通じて適合すると考えられるすべての中間レイヤに出席することができる。
音響トークン,自然言語,シンボリック音楽の4つの異なるデータセットを紹介し,GPTアーキテクチャの優れた性能を実現する。
論文 参考訳(メタデータ) (2024-09-17T03:46:01Z) - Pushdown Layers: Encoding Recursive Structure in Transformer Language
Models [86.75729087623259]
再帰は人間の言語の特徴であり、本質的には自己注意に挑戦する。
この作業では、新しいセルフアテンション層であるPushdown Layersを導入している。
プッシュダウン層を備えたトランスフォーマーは、劇的に改善され、3.5倍の高効率な構文一般化を実現した。
論文 参考訳(メタデータ) (2023-10-29T17:27:18Z) - Differentiable Tree Operations Promote Compositional Generalization [106.59434079287661]
微分可能ツリーマシン(DTM)アーキテクチャは、インタプリタと外部メモリとエージェントを統合し、ツリー操作をシーケンシャルに選択することを学ぶ。
DTMは100%、Transformer、Tree Transformer、LSTM、Tree2Tree LSTMといった既存のベースラインは30%以下である。
論文 参考訳(メタデータ) (2023-06-01T14:46:34Z) - Structural Biases for Improving Transformers on Translation into
Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。
第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。
これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文 参考訳(メタデータ) (2022-08-11T22:42:24Z) - Forming Trees with Treeformers [3.8073142980733]
トランスフォーマーのような最先端のニューラルネットワークモデルの多くは、そのアーキテクチャに明確な階層構造を持たない。
CKYアルゴリズムにインスパイアされた汎用エンコーダモジュールであるTreeformerを紹介する。
実験では, 階層構造をトランスフォーマーに組み込むことの利点を実証した。
論文 参考訳(メタデータ) (2022-07-14T14:39:30Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - SIT3: Code Summarization with Structure-Induced Transformer [48.000063280183376]
シーケンシャル入力を高効率な構造モデリングでエンコードする構造誘起自己保持に基づく新しいモデルを提案する。
新たに提案したモデルでは,一般的なベンチマークで最新の結果が得られる。
論文 参考訳(メタデータ) (2020-12-29T11:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。