論文の概要: Unsupervised Parsing by Searching for Frequent Word Sequences among Sentences with Equivalent Predicate-Argument Structures
- arxiv url: http://arxiv.org/abs/2404.12059v2
- Date: Mon, 12 Aug 2024 09:30:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 23:17:20.162580
- Title: Unsupervised Parsing by Searching for Frequent Word Sequences among Sentences with Equivalent Predicate-Argument Structures
- Title(参考訳): 等価述語句構造を持つ文間の単語列の探索による教師なし構文解析
- Authors: Junjie Chen, Xiangheng He, Danushka Bollegala, Yusuke Miyao,
- Abstract要約: 教師なし選挙区構文解析は、ターゲット文の統語単位(すなわち構成詞)を形成する単語列の同定に重点を置いている。
言語学者は、述語・代名詞構造(PAS)相当文の集合を評価することによって、その構成成分を識別する。
PASと等価な文集合の頻繁な単語列に対応していることを示す。
- 参考スコア(独自算出の注目度): 35.63321102040579
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Unsupervised constituency parsing focuses on identifying word sequences that form a syntactic unit (i.e., constituents) in target sentences. Linguists identify the constituent by evaluating a set of Predicate-Argument Structure (PAS) equivalent sentences where we find the constituent appears more frequently than non-constituents (i.e., the constituent corresponds to a frequent word sequence within the sentence set). However, such frequency information is unavailable in previous parsing methods that identify the constituent by observing sentences with diverse PAS. In this study, we empirically show that constituents correspond to frequent word sequences in the PAS-equivalent sentence set. We propose a frequency-based parser span-overlap that (1) computes the span-overlap score as the word sequence's frequency in the PAS-equivalent sentence set and (2) identifies the constituent structure by finding a constituent tree with the maximum span-overlap score. The parser achieves state-of-the-art level parsing accuracy, outperforming existing unsupervised parsers in eight out of ten languages. Additionally, we discover a multilingual phenomenon: participant-denoting constituents tend to have higher span-overlap scores than equal-length event-denoting constituents, meaning that the former tend to appear more frequently in the PAS-equivalent sentence set than the latter. The phenomenon indicates a statistical difference between the two constituent types, laying the foundation for future labeled unsupervised parsing research.
- Abstract(参考訳): 教師なし選挙区構文解析は、ターゲット文の統語単位(すなわち構成詞)を形成する単語列の同定に重点を置いている。
言語学者は、その構成物が非構成物よりも頻繁に現れること(つまり、その構成物は文集合内の頻繁な単語列に対応する)を発見した述語-代名詞構造(PAS)の集合を評価することによって、構成物を特定する。
しかし、これらの周波数情報は、多様なPASで文を観察することによって構成を識別する以前の解析方法では利用できない。
本研究では,PASと等価な文集合において,成分が頻繁な単語列に対応することを実証的に示す。
本研究では,(1)PASと等価な文集合における単語列の周波数としてスパンオーバーラップスコアを計算し,(2)最大スパンオーバーラップスコアを持つ構成木を見つけることによって構成構造を同定する周波数ベースのパーサースパンオーバーラップを提案する。
パーサーは最先端レベルの解析精度を達成し、10言語中8言語で既存の教師なしパーサーより優れている。
さらに, 参加者記述成分は, 対数長のイベント記述成分よりもスパンオーバーラップスコアが高い傾向にあり, 後者よりもPAS等価文の出現頻度が高い傾向にある。
この現象は2つの構成種間の統計的差異を示し、将来のラベル付き教師なし構文解析研究の基礎となる。
関連論文リスト
- Integrating Supertag Features into Neural Discontinuous Constituent Parsing [0.0]
伝統的な選挙区の見解では、構成要素は隣接した単語で構成されており、ドイツ語のような言語で一般的である。
トランジションベースの構文解析は、大きな注釈付きコーパス上で教師あり学習を用いて生のテキストを入力した木を生成する。
論文 参考訳(メタデータ) (2024-10-11T12:28:26Z) - Complex systems approach to natural language [0.0]
複雑性科学の観点から、自然言語の研究で使用される主要な方法論概念を概説する。
定量的言語学における3つの主要な複雑性関連研究動向を概説する。
論文 参考訳(メタデータ) (2024-01-05T12:01:26Z) - RankCSE: Unsupervised Sentence Representations Learning via Learning to
Rank [54.854714257687334]
本稿では,教師なし文表現学習のための新しい手法であるRangCSEを提案する。
コントラスト学習を伴うランキング一貫性とランキング蒸留を統一された枠組みに組み込む。
セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。
論文 参考訳(メタデータ) (2023-05-26T08:27:07Z) - Cascading and Direct Approaches to Unsupervised Constituency Parsing on
Spoken Sentences [67.37544997614646]
本研究は,教師なし音声補聴における最初の研究である。
目的は, 音声文の階層的構文構造を, 選挙区解析木の形で決定することである。
正確なセグメンテーションだけでは、音声文を正確に解析するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-03-15T17:57:22Z) - Representation biases in sentence transformers [1.2129015549576372]
我々は,SOTA文変換器が強い名目参加型バイアスを有することを示す。
文のペア間のCのコサイン類似性は、名詞の参加者の集合の重なりによってより強く決定される。
論文 参考訳(メタデータ) (2023-01-30T16:35:23Z) - Discontinuous Grammar as a Foreign Language [0.7412445894287709]
構成解析のためのシーケンス・ツー・シーケンス・モデルの枠組みを拡張した。
我々は不連続性を完全に生成できるいくつかの新規化を設計する。
提案手法はまず,主要な不連続なベンチマーク上でシーケンス・ツー・シーケンス・モデルをテストする。
論文 参考訳(メタデータ) (2021-10-20T08:58:02Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Detecting Speaker Personas from Conversational Texts [52.4557098875992]
本研究では,平易な会話テキストに基づく話者ペルソナの検出を目的とした,話者ペルソナ検出(SPD)という新しいタスクについて検討する。
我々は、Persona Match on Persona-Chat (PMPC)と呼ばれるSPDのためのデータセットを構築している。
本稿では,複数のベースラインモデルを評価し,この課題に対する発話対注目(U2P)マッチングネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-03T06:14:38Z) - Syntactic Perturbations Reveal Representational Correlates of
Hierarchical Phrase Structure in Pretrained Language Models [22.43510769150502]
文レベルの構文のどの側面がベクターベースの言語表現によってキャプチャされるのかは、完全には分かっていない。
このプロセスでは,トランスフォーマーが文のより大きな部分の層に感性を持たせることが示され,階層的な句構造が重要な役割を果たしている。
論文 参考訳(メタデータ) (2021-04-15T16:30:31Z) - Syntactic representation learning for neural network based TTS with
syntactic parse tree traversal [49.05471750563229]
本稿では,構文解析木に基づく構文表現学習手法を提案し,構文構造情報を自動的に活用する。
実験の結果,提案手法の有効性が示された。
複数の構文解析木を持つ文では、合成音声から韻律的差異が明確に認識される。
論文 参考訳(メタデータ) (2020-12-13T05:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。