論文の概要: Constituents Correspond to Word Sequence Patterns among Sentences with Equivalent Predicate-Argument Structures: Unsupervised Constituency Parsing by Span Matching
- arxiv url: http://arxiv.org/abs/2404.12059v1
- Date: Thu, 18 Apr 2024 10:17:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 12:41:30.606076
- Title: Constituents Correspond to Word Sequence Patterns among Sentences with Equivalent Predicate-Argument Structures: Unsupervised Constituency Parsing by Span Matching
- Title(参考訳): 等価述語句構造を持つ文間の単語列パターンに対応する構成詞:スパンマッチングによる教師なし構成詞解析
- Authors: Junjie Chen, Xiangheng He, Danushka Bollegala, Yusuke Miyao,
- Abstract要約: 教師なし選挙区パーシング(英: Unsupervised constituency parsing)とは、目的の文において構文単位(つまり、構成要素)を形成する単語列を識別することである。
本研究では,PASと等価な文集合における単語列パターンに対応するtextbfconstituentを実証的に検証する。
本稿では,単語列パターンを初めて計算解析に適用する頻度に基づく手法を提案する。
- 参考スコア(独自算出の注目度): 35.63321102040579
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Unsupervised constituency parsing is about identifying word sequences that form a syntactic unit (i.e., constituents) in a target sentence. Linguists identify the constituent by evaluating a set of Predicate-Argument Structure (PAS) equivalent sentences where we find the constituent corresponds to frequent word sequences. However, such information is unavailable to previous parsing methods which identify the constituent by observing sentences with diverse PAS. In this study, we empirically verify that \textbf{constituents correspond to word sequence patterns in the PAS-equivalent sentence set}. We propose a frequency-based method \emph{span-overlap}, applying the word sequence pattern to computational unsupervised parsing for the first time. Parsing experiments show that the span-overlap parser outperforms state-of-the-art parsers in eight out of ten languages. Further discrimination analysis confirms that the span-overlap method can non-trivially separate constituents from non-constituents. This result highlights the utility of the word sequence pattern. Additionally, we discover a multilingual phenomenon: \textbf{participant-denoting constituents are more frequent than event-denoting constituents}. The phenomenon indicates a behavioral difference between the two constituent types, laying the foundation for future labeled unsupervised parsing.
- Abstract(参考訳): 教師なし選挙区パーシング(英: Unsupervised constituency parsing)とは、目的の文において構文単位(つまり、構成要素)を形成する単語列を識別することである。
言語学者は、その成分が頻繁な単語列に対応するのを見つける述語-代名詞構造(PAS)等価文の集合を評価することによって、構成成分を識別する。
しかし、これらの情報は、多様なPASで文を観察することによって構成を識別する従来の解析手法では利用できない。
本研究では,<textbf{constituents>がPAS等価文集合内の単語列パターンに対応することを実証的に検証する。
本稿では,単語列パターンを教師なし解析に初めて適用し,周波数ベースの手法であるemph{span-overlap}を提案する。
パーシング実験は、10言語中8言語において、オーバーラップパーサーが最先端のパーサーより優れていることを示している。
さらなる差別分析により、スパンオーバーラップ法は非構成成分から非自明に分離できることを確認した。
この結果は、単語シーケンスパターンの有用性を強調している。
さらに、多言語現象が発見される: \textbf{participant-denoting componentsは、イベント記述成分よりも頻繁に起こる。
この現象は2つの構成要素の挙動の違いを示し、将来のラベル付き教師なし構文解析の基礎となる。
関連論文リスト
- Word Order's Impacts: Insights from Reordering and Generation Analysis [9.0720895802828]
現存する研究は、自然文中の単語の順序が与える影響について研究している。
この結果を踏まえ、単語順序に関する異なる仮説が提案されている。
ChatGPTは単語順序に依存するが、単語順序の語彙的意味論の間の冗長関係をサポートし、否定することはできない。
論文 参考訳(メタデータ) (2024-03-18T04:45:44Z) - Complex systems approach to natural language [0.0]
複雑性科学の観点から、自然言語の研究で使用される主要な方法論概念を概説する。
定量的言語学における3つの主要な複雑性関連研究動向を概説する。
論文 参考訳(メタデータ) (2024-01-05T12:01:26Z) - Sub-Sentence Encoder: Contrastive Learning of Propositional Semantic
Representations [102.05351905494277]
サブ文エンコーダ(Sub-sentence encoder)は、テキストの微細な意味表現のためのコンテクスト埋め込みモデルである。
文エンコーダと比較して,サブ文エンコーダは推論コストと空間複雑さのレベルが同じであることを示す。
論文 参考訳(メタデータ) (2023-11-07T20:38:30Z) - Explicit Syntactic Guidance for Neural Text Generation [45.60838824233036]
生成文法は、人間が言語文法を学習することで自然言語のテキストを生成することを示唆している。
本稿では,トップダウン方向の選挙区解析木に案内されたシーケンスを生成する構文誘導型生成スキーマを提案する。
パラフレーズ生成と機械翻訳の実験により,提案手法が自己回帰ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2023-06-20T12:16:31Z) - Cascading and Direct Approaches to Unsupervised Constituency Parsing on
Spoken Sentences [67.37544997614646]
本研究は,教師なし音声補聴における最初の研究である。
目的は, 音声文の階層的構文構造を, 選挙区解析木の形で決定することである。
正確なセグメンテーションだけでは、音声文を正確に解析するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-03-15T17:57:22Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Syntactic Perturbations Reveal Representational Correlates of
Hierarchical Phrase Structure in Pretrained Language Models [22.43510769150502]
文レベルの構文のどの側面がベクターベースの言語表現によってキャプチャされるのかは、完全には分かっていない。
このプロセスでは,トランスフォーマーが文のより大きな部分の層に感性を持たせることが示され,階層的な句構造が重要な役割を果たしている。
論文 参考訳(メタデータ) (2021-04-15T16:30:31Z) - Compositional Generalization via Semantic Tagging [81.24269148865555]
本稿では,シーケンス・ツー・シーケンスモデルの表現性と一般性を保存するための新しいデコードフレームワークを提案する。
提案手法は, モデルアーキテクチャ, ドメイン, セマンティックフォーマリズム間の構成一般化を一貫して改善することを示す。
論文 参考訳(メタデータ) (2020-10-22T15:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。