論文の概要: Constituents Correspond to Word Sequence Patterns among Sentences with Equivalent Predicate-Argument Structures: Unsupervised Constituency Parsing by Span Matching
- arxiv url: http://arxiv.org/abs/2404.12059v1
- Date: Thu, 18 Apr 2024 10:17:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 12:41:30.606076
- Title: Constituents Correspond to Word Sequence Patterns among Sentences with Equivalent Predicate-Argument Structures: Unsupervised Constituency Parsing by Span Matching
- Title(参考訳): 等価述語句構造を持つ文間の単語列パターンに対応する構成詞:スパンマッチングによる教師なし構成詞解析
- Authors: Junjie Chen, Xiangheng He, Danushka Bollegala, Yusuke Miyao,
- Abstract要約: 教師なし選挙区パーシング(英: Unsupervised constituency parsing)とは、目的の文において構文単位(つまり、構成要素)を形成する単語列を識別することである。
本研究では,PASと等価な文集合における単語列パターンに対応するtextbfconstituentを実証的に検証する。
本稿では,単語列パターンを初めて計算解析に適用する頻度に基づく手法を提案する。
- 参考スコア(独自算出の注目度): 35.63321102040579
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Unsupervised constituency parsing is about identifying word sequences that form a syntactic unit (i.e., constituents) in a target sentence. Linguists identify the constituent by evaluating a set of Predicate-Argument Structure (PAS) equivalent sentences where we find the constituent corresponds to frequent word sequences. However, such information is unavailable to previous parsing methods which identify the constituent by observing sentences with diverse PAS. In this study, we empirically verify that \textbf{constituents correspond to word sequence patterns in the PAS-equivalent sentence set}. We propose a frequency-based method \emph{span-overlap}, applying the word sequence pattern to computational unsupervised parsing for the first time. Parsing experiments show that the span-overlap parser outperforms state-of-the-art parsers in eight out of ten languages. Further discrimination analysis confirms that the span-overlap method can non-trivially separate constituents from non-constituents. This result highlights the utility of the word sequence pattern. Additionally, we discover a multilingual phenomenon: \textbf{participant-denoting constituents are more frequent than event-denoting constituents}. The phenomenon indicates a behavioral difference between the two constituent types, laying the foundation for future labeled unsupervised parsing.
- Abstract(参考訳): 教師なし選挙区パーシング(英: Unsupervised constituency parsing)とは、目的の文において構文単位(つまり、構成要素)を形成する単語列を識別することである。
言語学者は、その成分が頻繁な単語列に対応するのを見つける述語-代名詞構造(PAS)等価文の集合を評価することによって、構成成分を識別する。
しかし、これらの情報は、多様なPASで文を観察することによって構成を識別する従来の解析手法では利用できない。
本研究では,<textbf{constituents>がPAS等価文集合内の単語列パターンに対応することを実証的に検証する。
本稿では,単語列パターンを教師なし解析に初めて適用し,周波数ベースの手法であるemph{span-overlap}を提案する。
パーシング実験は、10言語中8言語において、オーバーラップパーサーが最先端のパーサーより優れていることを示している。
さらなる差別分析により、スパンオーバーラップ法は非構成成分から非自明に分離できることを確認した。
この結果は、単語シーケンスパターンの有用性を強調している。
さらに、多言語現象が発見される: \textbf{participant-denoting componentsは、イベント記述成分よりも頻繁に起こる。
この現象は2つの構成要素の挙動の違いを示し、将来のラベル付き教師なし構文解析の基礎となる。
関連論文リスト
- Integrating Supertag Features into Neural Discontinuous Constituent Parsing [0.0]
伝統的な選挙区の見解では、構成要素は隣接した単語で構成されており、ドイツ語のような言語で一般的である。
トランジションベースの構文解析は、大きな注釈付きコーパス上で教師あり学習を用いて生のテキストを入力した木を生成する。
論文 参考訳(メタデータ) (2024-10-11T12:28:26Z) - Complex systems approach to natural language [0.0]
複雑性科学の観点から、自然言語の研究で使用される主要な方法論概念を概説する。
定量的言語学における3つの主要な複雑性関連研究動向を概説する。
論文 参考訳(メタデータ) (2024-01-05T12:01:26Z) - RankCSE: Unsupervised Sentence Representations Learning via Learning to
Rank [54.854714257687334]
本稿では,教師なし文表現学習のための新しい手法であるRangCSEを提案する。
コントラスト学習を伴うランキング一貫性とランキング蒸留を統一された枠組みに組み込む。
セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。
論文 参考訳(メタデータ) (2023-05-26T08:27:07Z) - Cascading and Direct Approaches to Unsupervised Constituency Parsing on
Spoken Sentences [67.37544997614646]
本研究は,教師なし音声補聴における最初の研究である。
目的は, 音声文の階層的構文構造を, 選挙区解析木の形で決定することである。
正確なセグメンテーションだけでは、音声文を正確に解析するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-03-15T17:57:22Z) - Representation biases in sentence transformers [1.2129015549576372]
我々は,SOTA文変換器が強い名目参加型バイアスを有することを示す。
文のペア間のCのコサイン類似性は、名詞の参加者の集合の重なりによってより強く決定される。
論文 参考訳(メタデータ) (2023-01-30T16:35:23Z) - Discontinuous Grammar as a Foreign Language [0.7412445894287709]
構成解析のためのシーケンス・ツー・シーケンス・モデルの枠組みを拡張した。
我々は不連続性を完全に生成できるいくつかの新規化を設計する。
提案手法はまず,主要な不連続なベンチマーク上でシーケンス・ツー・シーケンス・モデルをテストする。
論文 参考訳(メタデータ) (2021-10-20T08:58:02Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Detecting Speaker Personas from Conversational Texts [52.4557098875992]
本研究では,平易な会話テキストに基づく話者ペルソナの検出を目的とした,話者ペルソナ検出(SPD)という新しいタスクについて検討する。
我々は、Persona Match on Persona-Chat (PMPC)と呼ばれるSPDのためのデータセットを構築している。
本稿では,複数のベースラインモデルを評価し,この課題に対する発話対注目(U2P)マッチングネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-03T06:14:38Z) - Syntactic Perturbations Reveal Representational Correlates of
Hierarchical Phrase Structure in Pretrained Language Models [22.43510769150502]
文レベルの構文のどの側面がベクターベースの言語表現によってキャプチャされるのかは、完全には分かっていない。
このプロセスでは,トランスフォーマーが文のより大きな部分の層に感性を持たせることが示され,階層的な句構造が重要な役割を果たしている。
論文 参考訳(メタデータ) (2021-04-15T16:30:31Z) - Syntactic representation learning for neural network based TTS with
syntactic parse tree traversal [49.05471750563229]
本稿では,構文解析木に基づく構文表現学習手法を提案し,構文構造情報を自動的に活用する。
実験の結果,提案手法の有効性が示された。
複数の構文解析木を持つ文では、合成音声から韻律的差異が明確に認識される。
論文 参考訳(メタデータ) (2020-12-13T05:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。