論文の概要: Applying Occam's Razor to Transformer-Based Dependency Parsing: What
Works, What Doesn't, and What is Really Necessary
- arxiv url: http://arxiv.org/abs/2010.12699v3
- Date: Thu, 29 Jul 2021 12:30:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 23:02:11.588784
- Title: Applying Occam's Razor to Transformer-Based Dependency Parsing: What
Works, What Doesn't, and What is Really Necessary
- Title(参考訳): OccamのRazorをトランスフォーマーベースの依存性解析に適用する:何が機能するか、何ができないのか、本当に必要か
- Authors: Stefan Gr\"unewald, Annemarie Friedrich, Jonas Kuhn
- Abstract要約: 我々は,事前学習した埋め込みの選択と,グラフベースの依存性スキームでLSTM層を使用するかどうかについて検討する。
我々は,12言語中10言語に対して,新しい最先端の成果(LAS)を実現するため,シンプルだが広く適用可能なアーキテクチャと構成を提案する。
- 参考スコア(独自算出の注目度): 9.347252855045125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The introduction of pre-trained transformer-based contextualized word
embeddings has led to considerable improvements in the accuracy of graph-based
parsers for frameworks such as Universal Dependencies (UD). However, previous
works differ in various dimensions, including their choice of pre-trained
language models and whether they use LSTM layers. With the aims of
disentangling the effects of these choices and identifying a simple yet widely
applicable architecture, we introduce STEPS, a new modular graph-based
dependency parser. Using STEPS, we perform a series of analyses on the UD
corpora of a diverse set of languages. We find that the choice of pre-trained
embeddings has by far the greatest impact on parser performance and identify
XLM-R as a robust choice across the languages in our study. Adding LSTM layers
provides no benefits when using transformer-based embeddings. A multi-task
training setup outputting additional UD features may contort results. Taking
these insights together, we propose a simple but widely applicable parser
architecture and configuration, achieving new state-of-the-art results (in
terms of LAS) for 10 out of 12 diverse languages.
- Abstract(参考訳): 事前学習されたtransformerベースのコンテキスト化ワード埋め込みの導入は、universal dependencies(ud)のようなフレームワークのためのグラフベースのパーサの精度を大幅に向上させた。
しかし、事前訓練された言語モデルの選択やLSTMレイヤの使用の有無など、以前の研究は様々な面で異なる。
これらの選択の影響を解消し、シンプルで広く適用可能なアーキテクチャを特定することを目的として、新しいモジュールグラフベースの依存性パーサであるSTEPSを紹介する。
ステップを用いて多種多様な言語のudコーパスについて一連の分析を行う。
事前学習した埋め込みの選択はパーサ性能にはるかに大きな影響を与えており,XLM-Rを言語間の堅牢な選択であると考えている。
lstm層の追加は、transformerベースの組込みを使用する場合の利点はない。
追加のUD機能を出力するマルチタスクトレーニング設定は、結果を歪ませる可能性がある。
これらの知見を合わせて,12言語中10言語に対して,最新の結果(LAS)を新たに達成する,シンプルで広く適用可能なパーサアーキテクチャと構成を提案する。
関連論文リスト
- Leveraging Code to Improve In-context Learning for Semantic Parsing [53.15789586679881]
In-context Learning (ICL) は、その少数ショットの性質と一般化の改善により、意味解析に魅力的なアプローチである。
我々は,(1)DSLの代わりにPythonなどの汎用プログラミング言語を用いた意味解析におけるICLの有効性を向上し,(2)ドメイン記述を構造化したプロンプトを増強する。
論文 参考訳(メタデータ) (2023-11-16T02:50:06Z) - Mixture-of-Linguistic-Experts Adapters for Improving and Interpreting
Pre-trained Language Models [22.977852629450346]
本稿では,言語モデルに言語構造を注入することで,2つの人気のある研究領域を組み合わせる手法を提案する。
本研究では,異なる言語構造をコードする並列アダプタモジュールを,Mixture-of-Linguistic-Expertsアーキテクチャを用いて組み合わせる。
実験の結果,本手法はパラメータ数に比較して,最先端のPEFT法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-24T23:29:06Z) - FILM: How can Few-Shot Image Classification Benefit from Pre-Trained
Language Models? [14.582209994281374]
少数のサンプルしか持たない新しいクラスに一般化可能なモデルをトレーニングすることを目的としている。
コントラスト学習に基づく事前学習言語モデルを用いた新しい数発学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-09T08:07:43Z) - Towards A Unified View of Sparse Feed-Forward Network in Pretraining
Large Language Model [58.9100867327305]
大規模かつスパースなフィードフォワード層(S-FFN)は、大きな言語モデルをテキスト処理するためにTransformersモデルのサイズをスケールアップするのに有効であることが証明されている。
我々は,S-FFNの2つの主要な設計選択,すなわち,メモリブロックのサイズとメモリブロックの選択方法について分析した。
言語モデルの事前学習において,より単純な選択方法である textbftextttAvg-K が得られた。
論文 参考訳(メタデータ) (2023-05-23T12:28:37Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Examining Scaling and Transfer of Language Model Architectures for
Machine Translation [51.69212730675345]
言語モデル(LM)は単一のレイヤのスタックで処理し、エンコーダ・デコーダモデル(EncDec)は入力と出力の処理に別々のレイヤスタックを使用する。
機械翻訳において、EncDecは長年好まれてきたアプローチであるが、LMの性能についての研究はほとんどない。
論文 参考訳(メタデータ) (2022-02-01T16:20:15Z) - Incorporating Linguistic Knowledge for Abstractive Multi-document
Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。
依存関係情報を言語誘導型注意機構に処理する。
言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文 参考訳(メタデータ) (2021-09-23T08:13:35Z) - SML: a new Semantic Embedding Alignment Transformer for efficient
cross-lingual Natural Language Inference [71.57324258813674]
トランスフォーマーが質問応答、自然言語推論(NLI)、要約といった様々なタスクを精度良く実行できることは、現在この種のタスクに対処するための最良のパラダイムの1つとしてランク付けすることができる。
nliは、複雑な文を理解するための知識が必要であり、仮説と前提の関係を確立するため、これらのアーキテクチャをテストする最良のシナリオの1つである。
本稿では,自然言語推論のための多言語組込みを効率的にアライメントするための新しいアーキテクチャ siamese multilingual transformer を提案する。
論文 参考訳(メタデータ) (2021-03-17T13:23:53Z) - Comparative Code Structure Analysis using Deep Learning for Performance
Prediction [18.226950022938954]
本稿では,アプリケーションの静的情報(抽象構文木やASTなど)を用いてコード構造の変化に基づいて性能変化を予測することの実現可能性を評価することを目的とする。
組込み学習手法の評価により,木系長短メモリ(LSTM)モデルでは,ソースコードの階層構造を利用して遅延表現を発見し,最大84%(個人的問題)と73%(複数の問題を含む組み合わせデータセット)の精度で性能変化を予測できることが示された。
論文 参考訳(メタデータ) (2021-02-12T16:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。