論文の概要: Applying Occam's Razor to Transformer-Based Dependency Parsing: What
Works, What Doesn't, and What is Really Necessary
- arxiv url: http://arxiv.org/abs/2010.12699v3
- Date: Thu, 29 Jul 2021 12:30:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 23:02:11.588784
- Title: Applying Occam's Razor to Transformer-Based Dependency Parsing: What
Works, What Doesn't, and What is Really Necessary
- Title(参考訳): OccamのRazorをトランスフォーマーベースの依存性解析に適用する:何が機能するか、何ができないのか、本当に必要か
- Authors: Stefan Gr\"unewald, Annemarie Friedrich, Jonas Kuhn
- Abstract要約: 我々は,事前学習した埋め込みの選択と,グラフベースの依存性スキームでLSTM層を使用するかどうかについて検討する。
我々は,12言語中10言語に対して,新しい最先端の成果(LAS)を実現するため,シンプルだが広く適用可能なアーキテクチャと構成を提案する。
- 参考スコア(独自算出の注目度): 9.347252855045125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The introduction of pre-trained transformer-based contextualized word
embeddings has led to considerable improvements in the accuracy of graph-based
parsers for frameworks such as Universal Dependencies (UD). However, previous
works differ in various dimensions, including their choice of pre-trained
language models and whether they use LSTM layers. With the aims of
disentangling the effects of these choices and identifying a simple yet widely
applicable architecture, we introduce STEPS, a new modular graph-based
dependency parser. Using STEPS, we perform a series of analyses on the UD
corpora of a diverse set of languages. We find that the choice of pre-trained
embeddings has by far the greatest impact on parser performance and identify
XLM-R as a robust choice across the languages in our study. Adding LSTM layers
provides no benefits when using transformer-based embeddings. A multi-task
training setup outputting additional UD features may contort results. Taking
these insights together, we propose a simple but widely applicable parser
architecture and configuration, achieving new state-of-the-art results (in
terms of LAS) for 10 out of 12 diverse languages.
- Abstract(参考訳): 事前学習されたtransformerベースのコンテキスト化ワード埋め込みの導入は、universal dependencies(ud)のようなフレームワークのためのグラフベースのパーサの精度を大幅に向上させた。
しかし、事前訓練された言語モデルの選択やLSTMレイヤの使用の有無など、以前の研究は様々な面で異なる。
これらの選択の影響を解消し、シンプルで広く適用可能なアーキテクチャを特定することを目的として、新しいモジュールグラフベースの依存性パーサであるSTEPSを紹介する。
ステップを用いて多種多様な言語のudコーパスについて一連の分析を行う。
事前学習した埋め込みの選択はパーサ性能にはるかに大きな影響を与えており,XLM-Rを言語間の堅牢な選択であると考えている。
lstm層の追加は、transformerベースの組込みを使用する場合の利点はない。
追加のUD機能を出力するマルチタスクトレーニング設定は、結果を歪ませる可能性がある。
これらの知見を合わせて,12言語中10言語に対して,最新の結果(LAS)を新たに達成する,シンプルで広く適用可能なパーサアーキテクチャと構成を提案する。
関連論文リスト
- Exploring Design Choices for Building Language-Specific LLMs [36.32622880071991]
単言語モデルと多言語モデルを適用し,言語固有の言語モデルの構築について検討する。
LLMの初期性能は適応後の最終性能と必ずしも相関しないことがわかった。
論文 参考訳(メタデータ) (2024-06-20T18:47:43Z) - A Parameter-efficient Language Extension Framework for Multilingual ASR [25.758826304861948]
本稿では,言語拡張のためのアーキテクチャベースのフレームワークを提案する。
パラメータ効率が良く、新しい言語に適応するためにアドオンモジュールを漸進的に組み込むように設計されている。
幅広い低パフォーマンスデータサイズを持つ5つの新しい言語で実験を行う。
論文 参考訳(メタデータ) (2024-06-10T14:46:07Z) - FILM: How can Few-Shot Image Classification Benefit from Pre-Trained
Language Models? [14.582209994281374]
少数のサンプルしか持たない新しいクラスに一般化可能なモデルをトレーニングすることを目的としている。
コントラスト学習に基づく事前学習言語モデルを用いた新しい数発学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-09T08:07:43Z) - Towards A Unified View of Sparse Feed-Forward Network in Pretraining
Large Language Model [58.9100867327305]
大規模かつスパースなフィードフォワード層(S-FFN)は、大きな言語モデルをテキスト処理するためにTransformersモデルのサイズをスケールアップするのに有効であることが証明されている。
我々は,S-FFNの2つの主要な設計選択,すなわち,メモリブロックのサイズとメモリブロックの選択方法について分析した。
言語モデルの事前学習において,より単純な選択方法である textbftextttAvg-K が得られた。
論文 参考訳(メタデータ) (2023-05-23T12:28:37Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Examining Scaling and Transfer of Language Model Architectures for
Machine Translation [51.69212730675345]
言語モデル(LM)は単一のレイヤのスタックで処理し、エンコーダ・デコーダモデル(EncDec)は入力と出力の処理に別々のレイヤスタックを使用する。
機械翻訳において、EncDecは長年好まれてきたアプローチであるが、LMの性能についての研究はほとんどない。
論文 参考訳(メタデータ) (2022-02-01T16:20:15Z) - Incorporating Linguistic Knowledge for Abstractive Multi-document
Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。
依存関係情報を言語誘導型注意機構に処理する。
言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文 参考訳(メタデータ) (2021-09-23T08:13:35Z) - SML: a new Semantic Embedding Alignment Transformer for efficient
cross-lingual Natural Language Inference [71.57324258813674]
トランスフォーマーが質問応答、自然言語推論(NLI)、要約といった様々なタスクを精度良く実行できることは、現在この種のタスクに対処するための最良のパラダイムの1つとしてランク付けすることができる。
nliは、複雑な文を理解するための知識が必要であり、仮説と前提の関係を確立するため、これらのアーキテクチャをテストする最良のシナリオの1つである。
本稿では,自然言語推論のための多言語組込みを効率的にアライメントするための新しいアーキテクチャ siamese multilingual transformer を提案する。
論文 参考訳(メタデータ) (2021-03-17T13:23:53Z) - Towards Instance-Level Parser Selection for Cross-Lingual Transfer of
Dependency Parsers [59.345145623931636]
我々は、インスタンスレベルの選択(ILPS)という、新しい言語間移動パラダイムを論じる。
本稿では,デレキシライズドトランスファーの枠組みにおけるインスタンスレベルの選択に着目した概念実証研究を提案する。
論文 参考訳(メタデータ) (2020-04-16T13:18:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。