論文の概要: Improving Unsupervised Constituency Parsing via Maximizing Semantic Information
- arxiv url: http://arxiv.org/abs/2410.02558v3
- Date: Fri, 04 Apr 2025 11:11:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 18:16:52.858954
- Title: Improving Unsupervised Constituency Parsing via Maximizing Semantic Information
- Title(参考訳): 意味情報の最大化による教師なし選挙区パーシングの改善
- Authors: Junjie Chen, Xiangheng He, Yusuke Miyao, Danushka Bollegala,
- Abstract要約: 教師なしの選挙区は、文内のフレーズを木のような構文構成構造に整理する。
文ログ類似度を最大化する従来の目的は、構成構造と意味論の密接な関係を明示的に説明していない。
構成構造に符号化された意味情報であるSemInfoを最大化することで解析を訓練する新しい目的を導入する。
- 参考スコア(独自算出の注目度): 35.63321102040579
- License:
- Abstract: Unsupervised constituency parsers organize phrases within a sentence into a tree-shaped syntactic constituent structure that reflects the organization of sentence semantics. However, the traditional objective of maximizing sentence log-likelihood (LL) does not explicitly account for the close relationship between the constituent structure and the semantics, resulting in a weak correlation between LL values and parsing accuracy. In this paper, we introduce a novel objective that trains parsers by maximizing SemInfo, the semantic information encoded in constituent structures. We introduce a bag-of-substrings model to represent the semantics and estimate the SemInfo value using the probability-weighted information metric. We apply the SemInfo maximization objective to training Probabilistic Context-Free Grammar (PCFG) parsers and develop a Tree Conditional Random Field (TreeCRF)-based model to facilitate the training. Experiments show that SemInfo correlates more strongly with parsing accuracy than LL, establishing SemInfo as a better unsupervised parsing objective. As a result, our algorithm significantly improves parsing accuracy by an average of 7.85 sentence-F1 scores across five PCFG variants and in four languages, achieving state-of-the-art level results in three of the four languages.
- Abstract(参考訳): 教師なし選挙区パーサーは、文内のフレーズを、文意味論の組織を反映した木型の構文構成構造に整理する。
しかし、文対数類似度(LL)を最大化する従来の目的は、構成構造と意味論の密接な関係を明示的に考慮していないため、LL値と解析精度の間には弱い相関関係が生じる。
本稿では,構成構造に符号化された意味情報であるSemInfoを最大化することにより,パーサを訓練する新たな目標を提案する。
本稿では,セマンティクスを表現し,確率重み付き情報メトリクスを用いてSemInfoの値を推定するサブストリングモデルを提案する。
本研究では,SemInfoの最大化目標を確率論的文脈自由文法(PCFG)パーサの学習に適用し,学習を容易にするための木条件ランダムフィールド(TreeCRF)モデルを開発する。
実験の結果、SemInfoはLLよりもパース精度が強いことが示され、SemInfoは教師なしのパース目的として確立された。
その結果、5つのPCFG変種と4つの言語で平均7.85の文-F1スコアで解析精度を大幅に向上させ、4つの言語のうち3つの最先端レベルを達成することができた。
関連論文リスト
- Structural Entropy Guided Probabilistic Coding [52.01765333755793]
構造エントロピー誘導型確率的符号化モデルSEPCを提案する。
我々は、構造エントロピー正規化損失を提案することにより、潜在変数間の関係を最適化に組み込む。
分類タスクと回帰タスクの両方を含む12の自然言語理解タスクに対する実験結果は、SEPCの優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-12T00:37:53Z) - Measuring Grammatical Diversity from Small Corpora: Derivational Entropy Rates, Mean Length of Utterances, and Annotation Invariance [0.0]
文法の導出エントロピーと、それが生成する発話の平均長は、基本的にリンクされていることを示す。
MLUは単なるプロキシではなく、統語的多様性の基本的な尺度であるということを実証します。
導出エントロピー率(英: derivational entropy rate)は、異なる文法的アノテーションフレームワークが木バンクの文法的複雑さを決定する速度を指標とする。
論文 参考訳(メタデータ) (2024-12-08T22:54:57Z) - Towards a theory of how the structure of language is acquired by deep neural networks [6.363756171493383]
木のような生成モデルを用いて、自然言語で見られる階層構造の多くをキャプチャする。
トークンとトークンの相関は文法の隠れ変数の表現を構築するのに有効であることを示す。
トレーニングセットのサイズと効果的な相関範囲の関係は、我々の合成データセットを超えていると推測する。
論文 参考訳(メタデータ) (2024-05-28T17:01:22Z) - Empirical Sufficiency Lower Bounds for Language Modeling with
Locally-Bootstrapped Semantic Structures [4.29295838853865]
語彙レベルでの意味構造の簡潔な二進ベクトル表現を設計する。
より優れたベースライン性能を達成するために、インクリメンタルタグがいかに優れているかを詳細に評価する。
論文 参考訳(メタデータ) (2023-05-30T10:09:48Z) - CPTAM: Constituency Parse Tree Aggregation Method [6.011216641982612]
本稿では,異なる距離から区切り木を集約するために,真理発見の考え方を取り入れた。
本稿では,構造集約と構成ラベル集約という2つのステップで,構成構文解析木集約問題を定式化する。
さまざまな言語やドメインのベンチマークデータセットで実験が行われる。
論文 参考訳(メタデータ) (2022-01-19T23:05:37Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Discrete representations in neural models of spoken language [56.29049879393466]
音声言語の弱教師付きモデルの文脈における4つの一般的なメトリクスの利点を比較した。
異なる評価指標が矛盾する結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2021-05-12T11:02:02Z) - Introducing Syntactic Structures into Target Opinion Word Extraction
with Deep Learning [89.64620296557177]
目的語抽出のためのディープラーニングモデルに文の構文構造を組み込むことを提案する。
また,ディープラーニングモデルの性能向上のために,新たな正規化手法を導入する。
提案モデルは,4つのベンチマークデータセット上での最先端性能を広範囲に解析し,達成する。
論文 参考訳(メタデータ) (2020-10-26T07:13:17Z) - Exploiting Syntactic Structure for Better Language Modeling: A Syntactic
Distance Approach [78.77265671634454]
我々はマルチタスクの目的、すなわち、モデルが単語を同時に予測し、また「シンタクティック距離」と呼ばれる形態で真実解析木を解析する。
Penn Treebank と Chinese Treebank のデータセットによる実験結果から,地上の真理解析木を追加の訓練信号として提供すると,そのモデルはより低いパープレキシティを実現し,より良い品質で木を誘導できることが示された。
論文 参考訳(メタデータ) (2020-05-12T15:35:00Z) - Discrete Optimization for Unsupervised Sentence Summarization with
Word-Level Extraction [31.648764677078837]
自動要約は、その最も重要な情報を保存しながら、文章の短いバージョンを生成する。
我々はこれら2つの側面を言語モデリングと意味的類似度メトリクスからなる教師なし目的関数でモデル化する。
提案手法は,ROUGEスコアによる教師なし文要約のための新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2020-05-04T19:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。