論文の概要: Are UD Treebanks Getting More Consistent? A Report Card for English UD
- arxiv url: http://arxiv.org/abs/2302.00636v1
- Date: Wed, 1 Feb 2023 17:58:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 16:47:46.346378
- Title: Are UD Treebanks Getting More Consistent? A Report Card for English UD
- Title(参考訳): UDツリーバンクはより一貫性があるか?
英語UDのためのレポートカード
- Authors: Amir Zeldes and Nathan Schneider
- Abstract要約: 2つの大きなユニバーサル依存(UD)英語ツリーバンクに焦点を当てる。
UD英語のツリーバンクは、より内部的に一貫したものになるのか?
コンソリデーションが進展したにもかかわらず、ジョイントモデルはいまだに不整合に悩まされ、より大きなトレーニングデータのプールを活用する能力が損なわれる可能性が示唆された。
- 参考スコア(独自算出の注目度): 21.62385307336831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent efforts to consolidate guidelines and treebanks in the Universal
Dependencies project raise the expectation that joint training and dataset
comparison is increasingly possible for high-resource languages such as
English, which have multiple corpora. Focusing on the two largest UD English
treebanks, we examine progress in data consolidation and answer several
questions: Are UD English treebanks becoming more internally consistent? Are
they becoming more like each other and to what extent? Is joint training a good
idea, and if so, since which UD version? Our results indicate that while
consolidation has made progress, joint models may still suffer from
inconsistencies, which hamper their ability to leverage a larger pool of
training data.
- Abstract(参考訳): ユニバーサル依存プロジェクトにおけるガイドラインとツリーバンクの統合に向けた最近の取り組みは、複数のコーパスを持つ英語などの高リソース言語において、共同トレーニングとデータセット比較がますます可能になることを期待している。
udイングリッシュ・ツリーバンクは2つの大きなudイングリッシュ・ツリーバンクに焦点を当て、データ統合の進展を調べ、いくつかの質問に答える。
彼らはお互いに、どんな程度に似ていますか?
共同トレーニングは良いアイデアなのでしょうか?
コンソリデーションが進展したにもかかわらず、ジョイントモデルはいまだに不整合に悩まされ、より大きなトレーニングデータのプールを活用する能力が損なわれる可能性が示唆された。
関連論文リスト
- Can Large Language Models Always Solve Easy Problems if They Can Solve Harder Ones? [65.43882564649721]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも矛盾する問題に悩まされている。
我々はConsisEvalベンチマークを開発し、各エントリは厳密な難易度で2つの質問から構成される。
相対的整合性スコアによる整合性向上の可能性を分析する。
論文 参考訳(メタデータ) (2024-06-18T17:25:47Z) - Thai Universal Dependency Treebank [0.0]
我々は,3,627本の木からなるタイ国最大のツリーバンクであるタイ・ユニバーサル・依存性ツリーバンク(TUD)について,UD(Universal Dependency)フレームワークに従って紹介する。
次に、事前学習したエンコーダを組み込んだ依存性解析モデルをベンチマークし、タイのPUDとTUDでトレーニングする。
その結果、我々のモデルのほとんどは、以前の論文で報告された他のモデルよりも優れており、タイの依存するコンポーネントの最適な選択についての洞察を提供することができることがわかった。
論文 参考訳(メタデータ) (2024-05-13T09:48:13Z) - Multilingual Nonce Dependency Treebanks: Understanding how Language Models represent and process syntactic structure [15.564927804136852]
SPUD (Semantically Perturbed Universal Dependencies) は、Universal Dependencies (UD) コーパスのためのナンスツリーバンクを作成するためのフレームワークである。
我々は、アラビア語、英語、フランス語、ドイツ語、ロシア語でナンスデータを作成し、SPUDツリーバンクの2つのユースケースを実証する。
論文 参考訳(メタデータ) (2023-11-13T17:36:58Z) - Constructing Code-mixed Universal Dependency Forest for Unbiased
Cross-lingual Relation Extraction [92.84968716013783]
言語間関係抽出(XRE)は,共通依存(UD)リソースから言語に一貫性のある構造的特徴を積極的に活用する。
コード混合型UDフォレストの構築により,非バイアス型UDベースXREトランスファーについて検討する。
このような森林特性により、トレーニングと予測フェーズ間のUDベースのXREのギャップを効果的に閉じることができる。
論文 参考訳(メタデータ) (2023-05-20T18:24:06Z) - TreeMix: Compositional Constituency-based Data Augmentation for Natural
Language Understanding [56.794981024301094]
自然言語理解のための合成データ拡張手法であるTreeMixを提案する。
具体的には、TreeMixは、選択構文解析木を利用して、文章を構成要素のサブ構造に分解し、ミックスアップデータ拡張技術を使って、それらを再結合して新しい文を生成する。
従来のアプローチと比較して、TreeMixは生成されたサンプルにより多様性を導入し、NLPデータの合成性を学ぶようモデルに促している。
論文 参考訳(メタデータ) (2022-05-12T15:25:12Z) - LyS_ACoru\~na at SemEval-2022 Task 10: Repurposing Off-the-Shelf Tools
for Sentiment Analysis as Semantic Dependency Parsing [10.355938901584567]
本稿では,バイファイン・セマンティック・依存性を用いた構造化感情分析の課題に対処する。
i)1つのツリーバンクでのトレーニング、(ii)異なる言語から来るツリーバンクのトレーニングによってセットアップを緩和する。
i) 他の言語で利用可能なツリーバンクを単語レベルで翻訳して、騒々しく、文法的にも、注釈付きのデータを得る。
評価後の段階では、英語のすべてのツリーを単純にマージする言語間モデルも訓練した。
論文 参考訳(メタデータ) (2022-04-27T10:21:28Z) - Linguistic dependencies and statistical dependence [76.89273585568084]
文脈における単語の確率を推定するために,事前学習した言語モデルを用いる。
最大CPMI木は非文脈PMI推定値から抽出した木よりも言語的依存関係によく対応していることがわかった。
論文 参考訳(メタデータ) (2021-04-18T02:43:37Z) - GATE: Graph Attention Transformer Encoder for Cross-lingual Relation and
Event Extraction [107.8262586956778]
言語に依存しない文表現を学習するために、普遍的な依存解析を伴うグラフ畳み込みネットワーク(GCN)を導入する。
GCNは、長い範囲の依存関係を持つ単語をモデル化するのに苦労する。
そこで本研究では,構文的距離の異なる単語間の依存関係を学習するための自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-06T20:30:35Z) - pyBART: Evidence-based Syntactic Transformations for IE [52.93947844555369]
pyBARTは、英語のUD木を拡張UDグラフに変換するためのオープンソースのPythonライブラリである。
パターンに基づく関係抽出のシナリオで評価すると、より少ないパターンを必要としながら、より高精細なUDよりも高い抽出スコアが得られる。
論文 参考訳(メタデータ) (2020-05-04T07:38:34Z) - Cross-Lingual Adaptation Using Universal Dependencies [1.027974860479791]
複雑なNLPタスクのためのUD構文解析木を用いて訓練されたモデルは、非常に異なる言語を特徴付けることができることを示す。
UD解析木に基づいて,木カーネルを用いた複数のモデルを開発し,これらのモデルが英語データセットでトレーニングされた場合,他の言語のデータを正しく分類できることを示す。
論文 参考訳(メタデータ) (2020-03-24T13:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。