論文の概要: CPTAM: Constituency Parse Tree Aggregation Method
- arxiv url: http://arxiv.org/abs/2201.07905v2
- Date: Sat, 1 Jul 2023 23:18:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-04 16:28:07.461886
- Title: CPTAM: Constituency Parse Tree Aggregation Method
- Title(参考訳): cptam:構成型パースツリーアグリゲーション方法
- Authors: Adithya Kulkarni, Nasim Sabetpour, Alexey Markin, Oliver Eulenstein,
Qi Li
- Abstract要約: 本稿では,異なる距離から区切り木を集約するために,真理発見の考え方を取り入れた。
本稿では,構造集約と構成ラベル集約という2つのステップで,構成構文解析木集約問題を定式化する。
さまざまな言語やドメインのベンチマークデータセットで実験が行われる。
- 参考スコア(独自算出の注目度): 6.011216641982612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diverse Natural Language Processing tasks employ constituency parsing to
understand the syntactic structure of a sentence according to a phrase
structure grammar. Many state-of-the-art constituency parsers are proposed, but
they may provide different results for the same sentences, especially for
corpora outside their training domains. This paper adopts the truth discovery
idea to aggregate constituency parse trees from different parsers by estimating
their reliability in the absence of ground truth. Our goal is to consistently
obtain high-quality aggregated constituency parse trees. We formulate the
constituency parse tree aggregation problem in two steps, structure aggregation
and constituent label aggregation. Specifically, we propose the first truth
discovery solution for tree structures by minimizing the weighted sum of
Robinson-Foulds (RF) distances, a classic symmetric distance metric between two
trees. Extensive experiments are conducted on benchmark datasets in different
languages and domains. The experimental results show that our method, CPTAM,
outperforms the state-of-the-art aggregation baselines. We also demonstrate
that the weights estimated by CPTAM can adequately evaluate constituency
parsers in the absence of ground truth.
- Abstract(参考訳): 自然言語処理タスクは、句構造文法に従って文の構文構造を理解するために、構成構文解析を用いる。
多くの最先端の選挙区パーサーが提案されているが、同じ文に対して異なる結果が得られるかもしれない。
本論文は, 真理の欠如による信頼性を推定することにより, 異なるパーサから選択構文木を集約する真理発見の考え方を採用する。
私たちの目標は、一貫して高品質な集計構成構文解析木を得ることです。
本稿では,構造集約と構成ラベル集約という2つのステップで,構成解析木集約問題を定式化する。
具体的には,二つの木の間の古典的な対称距離であるrobinson-foulds距離(rf)の重み付き和を最小化することにより,木構造に対する最初の真理発見法を提案する。
さまざまな言語やドメインのベンチマークデータセットで広範な実験が行われている。
実験の結果,CPTAM法は最先端の集約ベースラインよりも優れていた。
また, cptamが推定する重み付けは, 基底真理を欠いた構成パーサを適切に評価できることを実証する。
関連論文リスト
- Improving Unsupervised Constituency Parsing via Maximizing Semantic Information [35.63321102040579]
教師なしの選挙区は、文内のフレーズを木のような構文構成構造に整理する。
文ログ類似度(LL)を最大化する従来の目的は、構成構造と意味論の密接な関係を明示的に考慮していない。
教師なしメトリクスをトレーニングするための新しい目標:構成構造と文意味学の情報を最大化する(SemInfo)。
論文 参考訳(メタデータ) (2024-10-03T15:04:00Z) - Structured Tree Alignment for Evaluation of (Speech) Constituency Parsing [43.758912958903494]
本稿では, 音声評価の問題に起因した, 区切り木間の類似度尺度STRUCT-IOUについて述べる。
パラメータを計算するために,音声領域に強制アライメントを施して接地構文解析木を投影し,予測された接地構造成分と予測された成分を一定の制約下で整列させ,すべての整列構成ペアの平均IOUスコアを算出する。
論文 参考訳(メタデータ) (2024-02-21T00:01:17Z) - Cascading and Direct Approaches to Unsupervised Constituency Parsing on
Spoken Sentences [67.37544997614646]
本研究は,教師なし音声補聴における最初の研究である。
目的は, 音声文の階層的構文構造を, 選挙区解析木の形で決定することである。
正確なセグメンテーションだけでは、音声文を正確に解析するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-03-15T17:57:22Z) - Fine-tuning a Subtle Parsing Distinction Using a Probabilistic Decision
Tree: the Case of Postnominal "that" in Noun Complement Clauses vs. Relative
Clauses [0.0]
英文の相対的節と名詞的補節を解析する2つの方法を検討した。
我々は、Universal Dependencyを用いてGUM Treebankで解析されたコーパスをラバーするアルゴリズムを使用した。
2つ目の実験は、確率的決定木であるTreeTaggerを用いて、2つの補数と相対的利用の区別を学習することであった。
論文 参考訳(メタデータ) (2022-12-05T20:52:41Z) - Biaffine Discourse Dependency Parsing [0.0]
本稿では,バイファインモデルを用いてニューラルな談話依存解析を行い,ベースラインと比較して大幅な性能向上を実現した。
タスクにおけるアイズナーアルゴリズムとチュ・リュー・エドモンドスアルゴリズムを比較し、チュ・リュー・エドモンドスを用いることでより深い木を生成する。
論文 参考訳(メタデータ) (2022-01-12T12:56:13Z) - A Conditional Splitting Framework for Efficient Constituency Parsing [14.548146390081778]
本稿では,選択性解析問題(シンタクティックおよび談話構文解析)を一連の条件分割決定に当てはめる,汎用的なSeq2seq解析フレームワークを提案する。
解析モデルでは,テキストスパンで可能な分割点の条件付き確率分布を推定し,効率的なトップダウンデコーディングをサポートする。
談話分析では, 談話セグメンテーションを解析の特別な事例として扱うことができる。
論文 参考訳(メタデータ) (2021-06-30T00:36:34Z) - Unsupervised Parsing via Constituency Tests [49.42244463346612]
本稿では,選挙区検定の言語的概念に基づく教師なし解析手法を提案する。
文を与えられた木を生成するために,各木をその選挙区試験判定値の集計によりスコアし,最大スコアの2進木を選択する。
洗練されたモデルはPenn Treebankテストセット上で62.8 F1を達成する。
論文 参考訳(メタデータ) (2020-10-07T04:05:01Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Span-based Semantic Parsing for Compositional Generalization [53.24255235340056]
SpanBasedSPは入力発話上のスパンツリーを予測し、部分的なプログラムが入力内のスパンをどのように構成するかを明示的に符号化する。
GeoQuery、SCAN、CLOSUREでは、SpanBasedSPはランダムスプリットの強いseq2seqベースラインと似ているが、構成一般化を必要とするスプリットのベースラインに比べて劇的に性能が向上する。
論文 参考訳(メタデータ) (2020-09-13T16:42:18Z) - Exploiting Syntactic Structure for Better Language Modeling: A Syntactic
Distance Approach [78.77265671634454]
我々はマルチタスクの目的、すなわち、モデルが単語を同時に予測し、また「シンタクティック距離」と呼ばれる形態で真実解析木を解析する。
Penn Treebank と Chinese Treebank のデータセットによる実験結果から,地上の真理解析木を追加の訓練信号として提供すると,そのモデルはより低いパープレキシティを実現し,より良い品質で木を誘導できることが示された。
論文 参考訳(メタデータ) (2020-05-12T15:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。