論文の概要: Unsupervised Parsing by Searching for Frequent Word Sequences among Sentences with Equivalent Predicate-Argument Structures
- arxiv url: http://arxiv.org/abs/2404.12059v2
- Date: Mon, 12 Aug 2024 09:30:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 23:17:20.162580
- Title: Unsupervised Parsing by Searching for Frequent Word Sequences among Sentences with Equivalent Predicate-Argument Structures
- Title(参考訳): 等価述語句構造を持つ文間の単語列の探索による教師なし構文解析
- Authors: Junjie Chen, Xiangheng He, Danushka Bollegala, Yusuke Miyao,
- Abstract要約: 教師なし選挙区構文解析は、ターゲット文の統語単位(すなわち構成詞)を形成する単語列の同定に重点を置いている。
言語学者は、述語・代名詞構造(PAS)相当文の集合を評価することによって、その構成成分を識別する。
PASと等価な文集合の頻繁な単語列に対応していることを示す。
- 参考スコア(独自算出の注目度): 35.63321102040579
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Unsupervised constituency parsing focuses on identifying word sequences that form a syntactic unit (i.e., constituents) in target sentences. Linguists identify the constituent by evaluating a set of Predicate-Argument Structure (PAS) equivalent sentences where we find the constituent appears more frequently than non-constituents (i.e., the constituent corresponds to a frequent word sequence within the sentence set). However, such frequency information is unavailable in previous parsing methods that identify the constituent by observing sentences with diverse PAS. In this study, we empirically show that constituents correspond to frequent word sequences in the PAS-equivalent sentence set. We propose a frequency-based parser span-overlap that (1) computes the span-overlap score as the word sequence's frequency in the PAS-equivalent sentence set and (2) identifies the constituent structure by finding a constituent tree with the maximum span-overlap score. The parser achieves state-of-the-art level parsing accuracy, outperforming existing unsupervised parsers in eight out of ten languages. Additionally, we discover a multilingual phenomenon: participant-denoting constituents tend to have higher span-overlap scores than equal-length event-denoting constituents, meaning that the former tend to appear more frequently in the PAS-equivalent sentence set than the latter. The phenomenon indicates a statistical difference between the two constituent types, laying the foundation for future labeled unsupervised parsing research.
- Abstract(参考訳): 教師なし選挙区構文解析は、ターゲット文の統語単位(すなわち構成詞)を形成する単語列の同定に重点を置いている。
言語学者は、その構成物が非構成物よりも頻繁に現れること(つまり、その構成物は文集合内の頻繁な単語列に対応する)を発見した述語-代名詞構造(PAS)の集合を評価することによって、構成物を特定する。
しかし、これらの周波数情報は、多様なPASで文を観察することによって構成を識別する以前の解析方法では利用できない。
本研究では,PASと等価な文集合において,成分が頻繁な単語列に対応することを実証的に示す。
本研究では,(1)PASと等価な文集合における単語列の周波数としてスパンオーバーラップスコアを計算し,(2)最大スパンオーバーラップスコアを持つ構成木を見つけることによって構成構造を同定する周波数ベースのパーサースパンオーバーラップを提案する。
パーサーは最先端レベルの解析精度を達成し、10言語中8言語で既存の教師なしパーサーより優れている。
さらに, 参加者記述成分は, 対数長のイベント記述成分よりもスパンオーバーラップスコアが高い傾向にあり, 後者よりもPAS等価文の出現頻度が高い傾向にある。
この現象は2つの構成種間の統計的差異を示し、将来のラベル付き教師なし構文解析研究の基礎となる。
関連論文リスト
- Word Order's Impacts: Insights from Reordering and Generation Analysis [9.0720895802828]
現存する研究は、自然文中の単語の順序が与える影響について研究している。
この結果を踏まえ、単語順序に関する異なる仮説が提案されている。
ChatGPTは単語順序に依存するが、単語順序の語彙的意味論の間の冗長関係をサポートし、否定することはできない。
論文 参考訳(メタデータ) (2024-03-18T04:45:44Z) - Complex systems approach to natural language [0.0]
複雑性科学の観点から、自然言語の研究で使用される主要な方法論概念を概説する。
定量的言語学における3つの主要な複雑性関連研究動向を概説する。
論文 参考訳(メタデータ) (2024-01-05T12:01:26Z) - Sub-Sentence Encoder: Contrastive Learning of Propositional Semantic
Representations [102.05351905494277]
サブ文エンコーダ(Sub-sentence encoder)は、テキストの微細な意味表現のためのコンテクスト埋め込みモデルである。
文エンコーダと比較して,サブ文エンコーダは推論コストと空間複雑さのレベルが同じであることを示す。
論文 参考訳(メタデータ) (2023-11-07T20:38:30Z) - Explicit Syntactic Guidance for Neural Text Generation [45.60838824233036]
生成文法は、人間が言語文法を学習することで自然言語のテキストを生成することを示唆している。
本稿では,トップダウン方向の選挙区解析木に案内されたシーケンスを生成する構文誘導型生成スキーマを提案する。
パラフレーズ生成と機械翻訳の実験により,提案手法が自己回帰ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2023-06-20T12:16:31Z) - Cascading and Direct Approaches to Unsupervised Constituency Parsing on
Spoken Sentences [67.37544997614646]
本研究は,教師なし音声補聴における最初の研究である。
目的は, 音声文の階層的構文構造を, 選挙区解析木の形で決定することである。
正確なセグメンテーションだけでは、音声文を正確に解析するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-03-15T17:57:22Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Syntactic Perturbations Reveal Representational Correlates of
Hierarchical Phrase Structure in Pretrained Language Models [22.43510769150502]
文レベルの構文のどの側面がベクターベースの言語表現によってキャプチャされるのかは、完全には分かっていない。
このプロセスでは,トランスフォーマーが文のより大きな部分の層に感性を持たせることが示され,階層的な句構造が重要な役割を果たしている。
論文 参考訳(メタデータ) (2021-04-15T16:30:31Z) - Compositional Generalization via Semantic Tagging [81.24269148865555]
本稿では,シーケンス・ツー・シーケンスモデルの表現性と一般性を保存するための新しいデコードフレームワークを提案する。
提案手法は, モデルアーキテクチャ, ドメイン, セマンティックフォーマリズム間の構成一般化を一貫して改善することを示す。
論文 参考訳(メタデータ) (2020-10-22T15:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。