論文の概要: Augmenting Transformers with Recursively Composed Multi-grained
Representations
- arxiv url: http://arxiv.org/abs/2309.16319v2
- Date: Tue, 12 Mar 2024 03:43:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 01:46:25.828922
- Title: Augmenting Transformers with Recursively Composed Multi-grained
Representations
- Title(参考訳): 再帰的に構成した多粒度表現による変換器の拡張
- Authors: Xiang Hu, Qingyang Zhu, Kewei Tu, Wei Wu
- Abstract要約: ReCATは、学習と推論の両方の間、金の木に頼ることなく、生テキストの階層的構文構造を明示的にモデル化することができる。
Transformerの組み込み層とアテンション層の間にCIO層を積み重ねることで、ReCATモデルは、ディープ・イン・スパンとディープ・インター・スパンの両方のインタラクションを実行することができる。
- 参考スコア(独自算出の注目度): 42.87750629061462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present ReCAT, a recursive composition augmented Transformer that is able
to explicitly model hierarchical syntactic structures of raw texts without
relying on gold trees during both learning and inference. Existing research
along this line restricts data to follow a hierarchical tree structure and thus
lacks inter-span communications. To overcome the problem, we propose a novel
contextual inside-outside (CIO) layer that learns contextualized
representations of spans through bottom-up and top-down passes, where a
bottom-up pass forms representations of high-level spans by composing low-level
spans, while a top-down pass combines information inside and outside a span. By
stacking several CIO layers between the embedding layer and the attention
layers in Transformer, the ReCAT model can perform both deep intra-span and
deep inter-span interactions, and thus generate multi-grained representations
fully contextualized with other spans. Moreover, the CIO layers can be jointly
pre-trained with Transformers, making ReCAT enjoy scaling ability, strong
performance, and interpretability at the same time. We conduct experiments on
various sentence-level and span-level tasks. Evaluation results indicate that
ReCAT can significantly outperform vanilla Transformer models on all span-level
tasks and baselines that combine recursive networks with Transformers on
natural language inference tasks. More interestingly, the hierarchical
structures induced by ReCAT exhibit strong consistency with human-annotated
syntactic trees, indicating good interpretability brought by the CIO layers.
- Abstract(参考訳): 本稿では,原文の階層的構文構造を,学習と推論の両方において金木に頼らずに明示的にモデル化できる再帰的合成変換器ReCATを提案する。
この線に沿った既存の研究は、階層木構造に従うデータを制限するため、スパン間通信が欠如している。
そこでは,ボトムアップパスが低レベルのスパンを構成することで,ボトムアップパスが高レベルのスパンの表現を形成する一方で,トップダウンパスがスパンの内外の情報を組み合わせた,新しいコンテキスト内面(CIO)層を提案する。
トランスフォーマーの埋め込み層とアテンション層の間にcio層を積み重ねることで、recatモデルは深いスパン内相互作用と深いスパン間相互作用の両方を実行し、それによって、他のスパンと完全にコンテキスト化された複数の粒度の表現を生成することができる。
さらに、CIO層をTransformerと共同で事前トレーニングすることで、ReCATはスケーリング能力、パフォーマンスの強化、解釈性を同時に享受することができる。
様々な文レベルおよびスパンレベルのタスクについて実験を行う。
評価結果から、ReCATは、再帰的ネットワークと自然言語推論タスクのトランスフォーマーを組み合わせた全てのスパンレベルタスクとベースラインにおいて、バニラトランスフォーマーモデルを大幅に上回ることを示す。
さらに興味深いのは、ReCATによって誘導される階層構造は、人間に注釈付けされた構文木との強い整合性を示し、CIO層によってもたらされる優れた解釈可能性を示していることだ。
関連論文リスト
- Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。
SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。
我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文 参考訳(メタデータ) (2024-06-17T07:24:38Z) - RATLIP: Generative Adversarial CLIP Text-to-Image Synthesis Based on Recurrent Affine Transformations [0.0]
条件付きアフィン変換(CAT)は、画像中のコンテンツ合成を制御するために、GANの異なる層に適用されている。
まず、各レイヤがグローバル情報にアクセスできるようにするために、CATとRAT(Recurrent Neural Network)をモデル化する。
次に、リカレントニューラルネットワークにおける情報忘れの特性を軽減するために、RAT間のシャッフルアテンションを導入する。
論文 参考訳(メタデータ) (2024-05-13T18:49:18Z) - Inducing Systematicity in Transformers by Attending to Structurally
Quantized Embeddings [60.698130703909804]
トランスフォーマーは、複雑なデータセットでトレーニングされた後、構造と実体の新規な構成に一般化する。
本稿では,SQ-Transformerを提案する。
SQ-Transformerは,複数の低複雑さ意味解析および機械翻訳データセット上で,バニラ変換器よりも強い構成一般化を実現することを示す。
論文 参考訳(メタデータ) (2024-02-09T15:53:15Z) - Language Models as Hierarchy Encoders [22.03504018330068]
階層変換器エンコーダ(HiTs)として再学習トランスフォーマーエンコーダを用いたLMを提案する。
本手法は, 埋込次元に適応する曲率を持つポアンカー球内に, 予め学習したLMの出力埋め込み空間を定めている。
予め訓練したLM, 標準微調整されたLM, およびいくつかの双曲埋め込みベースラインに対するHiTsの評価を行った。
論文 参考訳(メタデータ) (2024-01-21T02:29:12Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z) - Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文 参考訳(メタデータ) (2020-02-19T08:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。