論文の概要: Learning Multiscale Transformer Models for Sequence Generation
- arxiv url: http://arxiv.org/abs/2206.09337v1
- Date: Sun, 19 Jun 2022 07:28:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 15:48:30.268076
- Title: Learning Multiscale Transformer Models for Sequence Generation
- Title(参考訳): シーケンス生成のためのマルチスケールトランスフォーマの学習
- Authors: Bei Li, Tong Zheng, Yi Jing, Chengbo Jiao, Tong Xiao and Jingbo Zhu
- Abstract要約: 単語境界情報と句レベルの事前知識に基づいて,スケール間の関係を確立することで,マルチスケールトランスフォーマーモデルを構築する。
特に、いくつかのテストセットにおいて、効率を犠牲にすることなく、強いベースラインに対して一貫したパフォーマンス向上を実現した。
- 参考スコア(独自算出の注目度): 33.73729074207944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiscale feature hierarchies have been witnessed the success in the
computer vision area. This further motivates researchers to design multiscale
Transformer for natural language processing, mostly based on the self-attention
mechanism. For example, restricting the receptive field across heads or
extracting local fine-grained features via convolutions. However, most of
existing works directly modeled local features but ignored the word-boundary
information. This results in redundant and ambiguous attention distributions,
which lacks of interpretability. In this work, we define those scales in
different linguistic units, including sub-words, words and phrases. We built a
multiscale Transformer model by establishing relationships among scales based
on word-boundary information and phrase-level prior knowledge. The proposed
\textbf{U}niversal \textbf{M}ulti\textbf{S}cale \textbf{T}ransformer, namely
\textsc{Umst}, was evaluated on two sequence generation tasks. Notably, it
yielded consistent performance gains over the strong baseline on several test
sets without sacrificing the efficiency.
- Abstract(参考訳): マルチスケールな特徴階層がコンピュータビジョン領域での成功を目撃されている。
これはまた、研究者が自然言語処理のためのマルチスケールトランスフォーマーを設計する動機となった。
例えば、頭部にまたがる受容野を制限するか、畳み込みによって局所的な細かな特徴を抽出する。
しかし、既存の作品の多くは局所的な特徴を直接モデル化しているが、単語境界情報を無視している。
この結果、冗長で曖昧な注意分布となり、解釈性に欠ける。
本研究では,これらの尺度をサブワード,単語,フレーズなど,異なる言語単位で定義する。
単語境界情報と句レベルの事前知識に基づいて,尺度間の関係を確立することにより,マルチスケールトランスフォーマモデルを構築した。
提案した \textbf{U}niversal \textbf{M}ulti\textbf{S}cale \textbf{T}ransformer, すなわち \textsc{Umst} は2つのシーケンス生成タスクで評価された。
注目すべきは、効率を犠牲にすることなく、複数のテストセットの強いベースラインに対して一貫したパフォーマンス向上を実現したことだ。
関連論文リスト
- Plug, Play, and Fuse: Zero-Shot Joint Decoding via Word-Level Re-ranking Across Diverse Vocabularies [12.843274390224853]
マルチモーダル翻訳のような現実世界のタスクは、翻訳と画像処理の両方を扱うなど、これらの強みの組み合わせを必要とすることが多い。
新たなゼロショットアンサンブル戦略を提案し,デコードフェーズにおいて,追加のトレーニングを必要とせずに,異なるモデルの統合を可能にする。
提案手法では,単語レベルでのスコアを組み合わせ,単語がいつ完了するかをマルチモーダルで予測することで,復号中にビームを再ランクする。
論文 参考訳(メタデータ) (2024-08-21T04:20:55Z) - Investigating semantic subspaces of Transformer sentence embeddings
through linear structural probing [2.5002227227256864]
本研究では,文レベル表現の研究手法である意味構造探索を用いた実験を行う。
本手法は,2つのタスクの文脈において,異なる言語モデル(エンコーダのみ,デコーダのみ,エンコーダのみ,エンコーダ-デコーダ)と異なる大きさの言語モデルに適用する。
モデルファミリは、その性能と層動力学において大きく異なるが、結果は大半がモデルサイズの不変量である。
論文 参考訳(メタデータ) (2023-10-18T12:32:07Z) - MGDoc: Pre-training with Multi-granular Hierarchy for Document Image
Understanding [53.03978356918377]
異なるレベルの粒度のコンテンツ間の空間的階層的関係は、文書画像理解タスクに不可欠である。
既存の方法は単語レベルか地域レベルから特徴を学習するが、両方を同時に考えることができない。
MGDocは,ページレベル,領域レベル,単語レベル情報を同時にエンコードするマルチモーダル・マルチグラニュラ事前学習フレームワークである。
論文 参考訳(メタデータ) (2022-11-27T22:47:37Z) - Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。
我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文 参考訳(メタデータ) (2022-09-08T14:12:15Z) - Multilingual Transformer Encoders: a Word-Level Task-Agnostic Evaluation [0.6882042556551609]
一部のTransformerベースのモデルは、言語間変換学習を実行することができる。
このようなモデルによって構築された文脈化表現のアライメントを評価するための単語レベルタスク非依存手法を提案する。
論文 参考訳(メタデータ) (2022-07-19T05:23:18Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Multiple Word Embeddings for Increased Diversity of Representation [15.279850826041066]
本稿では,実行時間の増加を無視できるような,強いベースライン上での性能を実質的に一貫的に向上させる手法を示す。
我々は、事前学習した埋め込み類似性と語彙被覆の側面を分析し、表現多様性がなぜこの技術が機能するかの原動力であることを見出した。
論文 参考訳(メタデータ) (2020-09-30T02:33:09Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。