論文の概要: Extracting Headless MWEs from Dependency Parse Trees: Parsing, Tagging,
and Joint Modeling Approaches
- arxiv url: http://arxiv.org/abs/2005.03035v1
- Date: Wed, 6 May 2020 18:00:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 05:31:54.698253
- Title: Extracting Headless MWEs from Dependency Parse Trees: Parsing, Tagging,
and Joint Modeling Approaches
- Title(参考訳): 依存構文解析木からヘッドレスmweを抽出する:パース、タグ付け、ジョイントモデリングアプローチ
- Authors: Tianze Shi, Lillian Lee
- Abstract要約: 興味深い、頻繁なマルチワード式(MWE)は、ヘッドレスMWEである。
現在の依存性アノテーション方式では、内部ヘッドのように平らな構造を扱わなければならない。
我々は、フラットなMWEを予測するために、これらの2つの一般的な戦略、パーシングとタグ付けを経験的に比較した。
- 参考スコア(独自算出の注目度): 25.981620411958602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An interesting and frequent type of multi-word expression (MWE) is the
headless MWE, for which there are no true internal syntactic dominance
relations; examples include many named entities ("Wells Fargo") and dates
("July 5, 2020") as well as certain productive constructions ("blow for blow",
"day after day"). Despite their special status and prevalence, current
dependency-annotation schemes require treating such flat structures as if they
had internal syntactic heads, and most current parsers handle them in the same
fashion as headed constructions. Meanwhile, outside the context of parsing,
taggers are typically used for identifying MWEs, but taggers might benefit from
structural information. We empirically compare these two common
strategies--parsing and tagging--for predicting flat MWEs. Additionally, we
propose an efficient joint decoding algorithm that combines scores from both
strategies. Experimental results on the MWE-Aware English Dependency Corpus and
on six non-English dependency treebanks with frequent flat structures show
that: (1) tagging is more accurate than parsing for identifying flat-structure
MWEs, (2) our joint decoder reconciles the two different views and, for
non-BERT features, leads to higher accuracies, and (3) most of the gains result
from feature sharing between the parsers and taggers.
- Abstract(参考訳): 興味深い、頻繁なマルチワード式(MWE)は、真の内部構文上の優位性関係を持たないヘッドレスMWEであり、多くの名前の付いたエンティティ("Wells Fargo")や日付("Wells Fargo")、特定の生産的な構成("Blow for blow", "day after day")を含む。
それらの特別な地位と頻度にもかかわらず、現在の依存性アノテーション方式では、内部の構文的ヘッドのように平らな構造を扱い、現在のパーサーは、先頭構造と同じ方法でそれらを扱う必要がある。
一方、解析の文脈以外では、タグは一般的にMWEを特定するために使用されるが、タグは構造情報の恩恵を受ける。
この2つの共通戦略-パーシングとタグ付け-を経験的に比較し、フラットなMWEを予測する。
さらに,両戦略のスコアを結合した効率の良いジョイント復号アルゴリズムを提案する。
MWE-Aware English Dependency Corpus と 6 つの非英語依存ツリーバンクを用いた実験結果から,(1) フラット構造 MWE を識別するための解析よりもタグ付けの方が精度が高いこと,(2) 共同デコーダは2つの異なるビューを分解し,非BERT の特徴は高い精度をもたらすこと,(3) パーサーとタガー間の特徴共有の結果,多くの利得が得られたこと,などが示されている。
関連論文リスト
- Integrating Supertag Features into Neural Discontinuous Constituent Parsing [0.0]
伝統的な選挙区の見解では、構成要素は隣接した単語で構成されており、ドイツ語のような言語で一般的である。
トランジションベースの構文解析は、大きな注釈付きコーパス上で教師あり学習を用いて生のテキストを入力した木を生成する。
論文 参考訳(メタデータ) (2024-10-11T12:28:26Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Unsupervised Chunking with Hierarchical RNN [62.15060807493364]
本稿では,非階層的手法で単語をグループ化する構文的タスクであるチャンキングに対する教師なしアプローチを紹介する。
本稿では,単語-チャンク・チャンク-文合成をモデル化した2層階層型階層型リカレントニューラルネットワーク(HRNN)を提案する。
CoNLL-2000データセットの実験では、既存の教師なし手法よりも顕著な改善が見られ、フレーズF1スコアが最大6ポイント向上した。
論文 参考訳(メタデータ) (2023-09-10T02:55:12Z) - Structural Ambiguity and its Disambiguation in Language Model Based
Parsers: the Case of Dutch Clause Relativization [2.9950872478176627]
先行文の存在が相対的節の曖昧さをいかに解決するかを考察する。
その結果、証明ネットに基づくニューロシンボリックは、普遍的な依存関係に基づくアプローチよりも、データ偏差補正に対してよりオープンであることが示された。
論文 参考訳(メタデータ) (2023-05-24T09:04:18Z) - Masked Part-Of-Speech Model: Does Modeling Long Context Help
Unsupervised POS-tagging? [94.68962249604749]
フレキシブルな依存性モデリングを容易にするために,MPoSM(Masked Part-of-Speech Model)を提案する。
MPoSMは任意のタグ依存をモデル化し、マスクされたPOS再構成の目的を通じてPOS誘導を行うことができる。
英語のPenn WSJデータセットと10の多様な言語を含むユニバーサルツリーバンクの競合的な結果を得た。
論文 参考訳(メタデータ) (2022-06-30T01:43:05Z) - CPTAM: Constituency Parse Tree Aggregation Method [6.011216641982612]
本稿では,異なる距離から区切り木を集約するために,真理発見の考え方を取り入れた。
本稿では,構造集約と構成ラベル集約という2つのステップで,構成構文解析木集約問題を定式化する。
さまざまな言語やドメインのベンチマークデータセットで実験が行われる。
論文 参考訳(メタデータ) (2022-01-19T23:05:37Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Linguistic dependencies and statistical dependence [76.89273585568084]
文脈における単語の確率を推定するために,事前学習した言語モデルを用いる。
最大CPMI木は非文脈PMI推定値から抽出した木よりも言語的依存関係によく対応していることがわかった。
論文 参考訳(メタデータ) (2021-04-18T02:43:37Z) - Multidirectional Associative Optimization of Function-Specific Word
Representations [86.87082468226387]
本稿では,関係する単語群間の関連を学習するためのニューラルネットワークフレームワークを提案する。
我々のモデルは結合関数固有の単語ベクトル空間を誘導し、例えば可塑性SVO合成のベクトルが近接して配置される。
このモデルは、共同空間においても単語群のメンバーシップに関する情報を保持し、SVO構造を前提とした複数のタスクに効果的に適用することができる。
論文 参考訳(メタデータ) (2020-05-11T17:07:20Z) - Is POS Tagging Necessary or Even Helpful for Neural Dependency Parsing? [22.93722845643562]
Stackのジョイントフレームワークを使用する場合,POSタグ付けによって解析性能が大幅に向上することを示す。
解析木よりもPOSタグをアノテートする方がずっと安いことを考えると,大規模な異種POSタグデータの利用も検討する。
論文 参考訳(メタデータ) (2020-03-06T13:47:30Z) - Discontinuous Constituent Parsing with Pointer Networks [0.34376560669160383]
不連続な構成木は、ドイツ語のような言語の文法的な現象を表現するのに不可欠である。
係り受け解析の最近の進歩は、ポインタネットワークが文中の単語間の構文関係を効率的に解析することに優れていることを示している。
本稿では,最も正確な不連続な構成表現を生成するニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-05T15:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。