論文の概要: Automatic Correction of Syntactic Dependency Annotation Differences
- arxiv url: http://arxiv.org/abs/2201.05891v1
- Date: Sat, 15 Jan 2022 17:17:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-22 10:27:53.061527
- Title: Automatic Correction of Syntactic Dependency Annotation Differences
- Title(参考訳): 構文依存アノテーションの差異の自動補正
- Authors: Andrew Zupon, Andrew Carnie, Michael Hammond, Mihai Surdeanu
- Abstract要約: 本稿では,依存関係解析コーパス間のアノテーションミスマッチを自動的に検出する手法を提案する。
これら3つの手法は、新しいコーパスの見知らぬ例と既存のコーパスの同様の例を比較することに依存している。
Stanza (Qianu et al. 2020) と Parsing as Tagging (PaT) の2つの依存関係を変換および非変換データに基づいて再トレーニングすることで、これらの変換を評価する。
- 参考スコア(独自算出の注目度): 17.244143187393078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Annotation inconsistencies between data sets can cause problems for
low-resource NLP, where noisy or inconsistent data cannot be as easily replaced
compared with resource-rich languages. In this paper, we propose a method for
automatically detecting annotation mismatches between dependency parsing
corpora, as well as three related methods for automatically converting the
mismatches. All three methods rely on comparing an unseen example in a new
corpus with similar examples in an existing corpus. These three methods include
a simple lexical replacement using the most frequent tag of the example in the
existing corpus, a GloVe embedding-based replacement that considers a wider
pool of examples, and a BERT embedding-based replacement that uses
contextualized embeddings to provide examples fine-tuned to our specific data.
We then evaluate these conversions by retraining two dependency parsers --
Stanza (Qi et al. 2020) and Parsing as Tagging (PaT) (Vacareanu et al. 2020) --
on the converted and unconverted data. We find that applying our conversions
yields significantly better performance in many cases. Some differences
observed between the two parsers are observed. Stanza has a more complex
architecture with a quadratic algorithm, so it takes longer to train, but it
can generalize better with less data. The PaT parser has a simpler architecture
with a linear algorithm, speeding up training time but requiring more training
data to reach comparable or better performance.
- Abstract(参考訳): データセット間のアノテーションの不整合は、リソース豊富な言語に比べてノイズや一貫性のないデータが簡単に置き換えられない低リソースのNLPに問題を引き起こす可能性がある。
本稿では,依存関係解析コーパス間のアノテーションミスマッチを自動的に検出する手法と,それらのミスマッチを自動変換する3つの方法を提案する。
これら3つの手法は、新しいコーパスの見知らぬ例と既存のコーパスの同様の例を比較することに依存する。
これら3つの方法には、既存のコーパスの最も頻繁なタグを使用した単純な語彙置換、より広いサンプルプールを考慮したGloVe埋め込みベースの置換、コンテキスト化された埋め込みを使用して特定のデータに微調整された例を提供するBERT埋め込みベースの置換が含まれる。
次に、変換されたデータと変換されていないデータに基づいて、これらの変換をStanza (Qi et al. 2020) と Parsing as Tagging (PaT) (Vacareanu et al. 2020) に再トレーニングすることで評価する。
変換を適用すると、多くの場合、性能が大幅に向上することがわかった。
両者の相違点が観察された。
Stanzaは2次アルゴリズムを備えたより複雑なアーキテクチャであるため、トレーニングに時間がかかるが、少ないデータでより一般化することができる。
PaTパーサは、線形アルゴリズムでよりシンプルなアーキテクチャを持ち、トレーニング時間を短縮するが、同等またはより良いパフォーマンスに到達するためにより多くのトレーニングデータを必要とする。
関連論文リスト
- SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - Few-Shot Adaptation for Parsing Contextual Utterances with LLMs [25.22099517947426]
実世界の設定では、アノテーションのコストのため、通常は限られた数の文脈的発話しか存在しない。
対話型意味解析における4つの主要なパラダイムについて検討する。
コンテキスト内学習と微調整の実験は、Rewrite-then-Parseが最も有望なパラダイムであることを示唆している。
論文 参考訳(メタデータ) (2023-09-18T21:35:19Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z) - Efficient comparison of sentence embeddings [0.0]
様々な単語と文の埋め込みアルゴリズムについて検討し、選択したアルゴリズムとして文埋め込みアルゴリズムBERTを選択する。
結果によると、FAISSは単一のノードしか持たない集中型環境での使用、特に大きなデータセットを含む場合、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-04-02T09:08:34Z) - FastKASSIM: A Fast Tree Kernel-Based Syntactic Similarity Metric [48.66580267438049]
我々は,発話レベルと文書レベルの構文的類似性の指標であるFastKASSIMを提案する。
ツリーカーネルに基づいたドキュメントのペア間で、最も類似した依存関係解析ツリーをペア化し、平均化する。
r/ChangeMyViewコーパス内のドキュメントのベースラインメソッドよりも最大5.2倍高速に動作します。
論文 参考訳(メタデータ) (2022-03-15T22:33:26Z) - Comparative Study of Long Document Classification [0.0]
我々は、標準的な機械学習アプローチを用いて、長い文書分類を再考する。
単純なNaive Bayesから6つの標準テキスト分類データセット上の複雑なBERTまで、さまざまなアプローチをベンチマークする。
論文 参考訳(メタデータ) (2021-11-01T04:51:51Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - Don't Parse, Insert: Multilingual Semantic Parsing with Insertion Based
Decoding [10.002379593718471]
成功した構文は、入力発話をシステムで容易に理解できる動作に変換する。
複雑な解析タスクに対して、最先端の手法は、解析を直接生成するためのシーケンスモデルへの自己回帰シーケンスに基づいている。
論文 参考訳(メタデータ) (2020-10-08T01:18:42Z) - ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification
Models with Multiple Rewriting Transformations [97.27005783856285]
本稿では,英語で文の単純化を評価するための新しいデータセットであるASSETを紹介する。
ASSETの単純化は、タスクの他の標準評価データセットと比較して、単純さの特徴を捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T16:44:54Z) - A Methodology for Creating Question Answering Corpora Using Inverse Data
Annotation [16.914116942666976]
本稿では,構造化データに対する質問応答のためのコーパスを効率的に構築するための新しい手法を提案する。
本研究では,文脈自由文法からOTをランダムに生成する。
提案手法を適用して,大規模な意味解析コーパスであるOTTA(Operation Trees and Token Assignment)を作成する。
論文 参考訳(メタデータ) (2020-04-16T12:50:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。