論文の概要: TGIF: Tree-Graph Integrated-Format Parser for Enhanced UD with Two-Stage
Generic- to Individual-Language Finetuning
- arxiv url: http://arxiv.org/abs/2107.06907v1
- Date: Wed, 14 Jul 2021 18:00:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 14:05:08.789390
- Title: TGIF: Tree-Graph Integrated-Format Parser for Enhanced UD with Two-Stage
Generic- to Individual-Language Finetuning
- Title(参考訳): TGIF:2段階ジェネリックから個別言語ファインタニングによる拡張UDのための木グラフ統合型パーサ
- Authors: Tianze Shi, Lillian Lee
- Abstract要約: IWPT 2021共有タスクへのコントリビューションについて述べる。
我々のメインシステムコンポーネントはハイブリッドツリーグラフであり、スプレッドツリーに存在しないグラフエッジを付加した拡張グラフに対して、スプレッドツリーの予測を統合する。
- 参考スコア(独自算出の注目度): 18.71574180551552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present our contribution to the IWPT 2021 shared task on parsing into
enhanced Universal Dependencies. Our main system component is a hybrid
tree-graph parser that integrates (a) predictions of spanning trees for the
enhanced graphs with (b) additional graph edges not present in the spanning
trees. We also adopt a finetuning strategy where we first train a
language-generic parser on the concatenation of data from all available
languages, and then, in a second step, finetune on each individual language
separately. Additionally, we develop our own complete set of pre-processing
modules relevant to the shared task, including tokenization, sentence
segmentation, and multiword token expansion, based on pre-trained XLM-R models
and our own pre-training of character-level language models. Our submission
reaches a macro-average ELAS of 89.24 on the test set. It ranks top among all
teams, with a margin of more than 2 absolute ELAS over the next best-performing
submission, and best score on 16 out of 17 languages.
- Abstract(参考訳): 本稿では,iwpt 2021の共通タスクである,拡張ユニバーサル依存関係へのパースへの貢献について述べる。
我々の主なシステムコンポーネントは、(a)拡張グラフに対して、(b)拡張グラフに存在しない追加グラフエッジに対して、(a)拡張ツリーのスパンニング予測を統合するハイブリッドツリーグラフパーサである。
また、まず、利用可能なすべての言語からのデータの連結について、言語ジェネリックパーサをトレーニングし、次に、各言語を個別に微調整する、微調整戦略を採用しています。
さらに,事前学習されたXLM-Rモデルと文字レベル言語モデルの事前学習に基づいて,トークン化や文分割,マルチワードトークン拡張など,共有タスクに関連する独自の事前処理モジュールを開発する。
我々の提出はテストセットで平均89.24のマクロ平均ELASに達する。
全チームの中でトップにランクインし、次のベストパフォーマンスの応募者に対して2つ以上の絶対 elas と17言語中16言語でベストスコアを付けている。
関連論文リスト
- CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - EAG: Extract and Generate Multi-way Aligned Corpus for Complete Multi-lingual Neural Machine Translation [63.88541605363555]
EAG(Extract and Generate)は,バイリンガルデータから大規模かつ高品質なマルチウェイアライメントコーパスを構築するための2段階のアプローチである。
まず、異なる言語対から、非常に類似したソースやターゲット文を持つバイリンガルな例をペアリングして、候補に整列した例を抽出する。
次に、よく訓練された生成モデルを用いて、候補から最終的な整列例を生成する。
論文 参考訳(メタデータ) (2022-03-04T08:21:27Z) - The DCU-EPFL Enhanced Dependency Parser at the IWPT 2021 Shared Task [19.98425994656106]
We describe the multitask-EPFL submit to the IWPT 2021 Shared Task on Parsing into Enhanced Universal Dependencies。
このタスクは、セマンティック構造を表現するためにより円滑に設計された基本依存性ツリーの拡張である拡張グラフのパースを含む。
評価は17言語29のツリーバンクで行われ、参加者は生文字列から始まる各言語からデータを解析する必要がある。
論文 参考訳(メタデータ) (2021-07-05T12:42:59Z) - Constructing Taxonomies from Pretrained Language Models [52.53846972667636]
本稿では,事前学習した言語モデルを用いて分類木(WordNetなど)を構築する手法を提案する。
我々のアプローチは2つのモジュールから構成されており、1つは親関係を予測し、もう1つはそれらの予測を木に調整する。
我々は、WordNetからサンプリングされたサブツリーでモデルをトレーニングし、重複しないWordNetサブツリーでテストする。
論文 参考訳(メタデータ) (2020-10-24T07:16:21Z) - Automatic Extraction of Rules Governing Morphological Agreement [103.78033184221373]
原文から第一パス文法仕様を抽出する自動フレームワークを開発する。
我々は、世界の多くの言語の文法の中核にあるモルフォシンタクティックな現象である合意を記述する規則の抽出に焦点をあてる。
我々のフレームワークはUniversal Dependenciesプロジェクトに含まれるすべての言語に適用され、有望な結果が得られます。
論文 参考訳(メタデータ) (2020-10-02T18:31:45Z) - Span-based Semantic Parsing for Compositional Generalization [53.24255235340056]
SpanBasedSPは入力発話上のスパンツリーを予測し、部分的なプログラムが入力内のスパンをどのように構成するかを明示的に符号化する。
GeoQuery、SCAN、CLOSUREでは、SpanBasedSPはランダムスプリットの強いseq2seqベースラインと似ているが、構成一般化を必要とするスプリットのベースラインに比べて劇的に性能が向上する。
論文 参考訳(メタデータ) (2020-09-13T16:42:18Z) - The ADAPT Enhanced Dependency Parser at the IWPT 2020 Shared Task [12.226699055857182]
本稿では,2020 IWPT共有タスクのためのADAPTシステムについて述べる。
UDPipe と UDPipe-Future を用いたパイプラインアプローチを実装し,初期アノテーションのレベルを提供する。
ほとんどの言語では、強化された依存関係を解析するタスクにセマンティックな依存関係をうまく適用することができる。
論文 参考訳(メタデータ) (2020-09-03T14:43:04Z) - K{\o}psala: Transition-Based Graph Parsing via Efficient Training and
Effective Encoding [13.490365811869719]
We present Kopsala, the Copenhagen-Uppsala system for the Enhanced Universal Dependencies Shared Task at IWPT 2020。
当社のシステムは,拡張解析以外のすべてを対象として,既製のモデルで構成されたパイプラインであり,後者はCheなどから適応した遷移グラフである。
平均的なELASによると、統一パイプラインはRepresentation ParsingとEnhanced Universal Dependenciesの両方に有効であることを示す。
論文 参考訳(メタデータ) (2020-05-25T13:17:09Z) - Towards Instance-Level Parser Selection for Cross-Lingual Transfer of
Dependency Parsers [59.345145623931636]
我々は、インスタンスレベルの選択(ILPS)という、新しい言語間移動パラダイムを論じる。
本稿では,デレキシライズドトランスファーの枠組みにおけるインスタンスレベルの選択に着目した概念実証研究を提案する。
論文 参考訳(メタデータ) (2020-04-16T13:18:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。