論文の概要: Improving Unsupervised Constituency Parsing via Maximizing Semantic Information
- arxiv url: http://arxiv.org/abs/2410.02558v1
- Date: Thu, 3 Oct 2024 15:04:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 02:31:52.765749
- Title: Improving Unsupervised Constituency Parsing via Maximizing Semantic Information
- Title(参考訳): 意味情報の最大化による教師なし選挙区パーシングの改善
- Authors: Junjie Chen, Xiangheng He, Yusuke Miyao, Danushka Bollegala,
- Abstract要約: 教師なしの選挙区は、文内のフレーズを木のような構文構成構造に整理する。
文ログ類似度(LL)を最大化する従来の目的は、構成構造と意味論の密接な関係を明示的に考慮していない。
教師なしメトリクスをトレーニングするための新しい目標:構成構造と文意味学の情報を最大化する(SemInfo)。
- 参考スコア(独自算出の注目度): 35.63321102040579
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised constituency parsers organize phrases within a sentence into a tree-shaped syntactic constituent structure that reflects the organization of sentence semantics. However, the traditional objective of maximizing sentence log-likelihood (LL) does not explicitly account for the close relationship between the constituent structure and the semantics, resulting in a weak correlation between LL values and parsing accuracy. In this paper, we introduce a novel objective for training unsupervised parsers: maximizing the information between constituent structures and sentence semantics (SemInfo). We introduce a bag-of-substrings model to represent the semantics and apply the probability-weighted information metric to estimate the SemInfo. Additionally, we develop a Tree Conditional Random Field (TreeCRF)-based model to apply the SemInfo maximization objective to Probabilistic Context-Free Grammar (PCFG) induction, the state-of-the-art method for unsupervised constituency parsing. Experiments demonstrate that SemInfo correlates more strongly with parsing accuracy than LL. Our algorithm significantly enhances parsing accuracy by an average of 7.85 points across five PCFG variants and in four languages, achieving new state-of-the-art results in three of the four languages.
- Abstract(参考訳): 教師なし選挙区パーサーは、文内のフレーズを、文意味論の組織を反映した木型の構文構成構造に整理する。
しかし、文対数類似度(LL)を最大化する従来の目的は、構成構造と意味論の密接な関係を明示的に考慮していないため、LL値と解析精度の間には弱い相関関係が生じる。
本稿では,構造化構造と文意味論(SemInfo)間の情報の最大化という,教師なしのパーサを学習するための新たな目標を提案する。
本稿では,セマンティックスを表現するためにサブストリングのバッグモデルを導入し,セム情報の推定に確率重み付け情報メトリクスを適用した。
さらに,木条件ランダムフィールド(TreeCRF)に基づくモデルを開発し,SemInfoの最大化目標を確率論的文脈自由文法(PCFG)誘導に適用する。
実験により、SemInfoはLLよりも解析精度が強いことが示されている。
提案アルゴリズムは5つのPCFG変種と4つの言語で平均7.85ポイントのパース精度を著しく向上させ、4つの言語のうち3言語で新たな最先端結果を達成する。
関連論文リスト
- Towards a theory of how the structure of language is acquired by deep neural networks [6.363756171493383]
木のような生成モデルを用いて、自然言語で見られる階層構造の多くをキャプチャする。
トークンとトークンの相関は文法の隠れ変数の表現を構築するのに有効であることを示す。
トレーニングセットのサイズと効果的な相関範囲の関係は、我々の合成データセットを超えていると推測する。
論文 参考訳(メタデータ) (2024-05-28T17:01:22Z) - Empirical Sufficiency Lower Bounds for Language Modeling with
Locally-Bootstrapped Semantic Structures [4.29295838853865]
語彙レベルでの意味構造の簡潔な二進ベクトル表現を設計する。
より優れたベースライン性能を達成するために、インクリメンタルタグがいかに優れているかを詳細に評価する。
論文 参考訳(メタデータ) (2023-05-30T10:09:48Z) - CPTAM: Constituency Parse Tree Aggregation Method [6.011216641982612]
本稿では,異なる距離から区切り木を集約するために,真理発見の考え方を取り入れた。
本稿では,構造集約と構成ラベル集約という2つのステップで,構成構文解析木集約問題を定式化する。
さまざまな言語やドメインのベンチマークデータセットで実験が行われる。
論文 参考訳(メタデータ) (2022-01-19T23:05:37Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Discrete representations in neural models of spoken language [56.29049879393466]
音声言語の弱教師付きモデルの文脈における4つの一般的なメトリクスの利点を比較した。
異なる評価指標が矛盾する結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2021-05-12T11:02:02Z) - Introducing Syntactic Structures into Target Opinion Word Extraction
with Deep Learning [89.64620296557177]
目的語抽出のためのディープラーニングモデルに文の構文構造を組み込むことを提案する。
また,ディープラーニングモデルの性能向上のために,新たな正規化手法を導入する。
提案モデルは,4つのベンチマークデータセット上での最先端性能を広範囲に解析し,達成する。
論文 参考訳(メタデータ) (2020-10-26T07:13:17Z) - Open-set Short Utterance Forensic Speaker Verification using
Teacher-Student Network with Explicit Inductive Bias [59.788358876316295]
そこで本研究では,小規模の法定フィールドデータセット上での話者検証を改善するためのパイプラインソリューションを提案する。
大規模領域外データセットを活用することで,教師学習のための知識蒸留に基づく目的関数を提案する。
提案する目的関数は,短時間の発話における教師学生の学習性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-09-21T00:58:40Z) - Exploiting Syntactic Structure for Better Language Modeling: A Syntactic
Distance Approach [78.77265671634454]
我々はマルチタスクの目的、すなわち、モデルが単語を同時に予測し、また「シンタクティック距離」と呼ばれる形態で真実解析木を解析する。
Penn Treebank と Chinese Treebank のデータセットによる実験結果から,地上の真理解析木を追加の訓練信号として提供すると,そのモデルはより低いパープレキシティを実現し,より良い品質で木を誘導できることが示された。
論文 参考訳(メタデータ) (2020-05-12T15:35:00Z) - Discrete Optimization for Unsupervised Sentence Summarization with
Word-Level Extraction [31.648764677078837]
自動要約は、その最も重要な情報を保存しながら、文章の短いバージョンを生成する。
我々はこれら2つの側面を言語モデリングと意味的類似度メトリクスからなる教師なし目的関数でモデル化する。
提案手法は,ROUGEスコアによる教師なし文要約のための新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2020-05-04T19:01:55Z) - Discontinuous Constituent Parsing with Pointer Networks [0.34376560669160383]
不連続な構成木は、ドイツ語のような言語の文法的な現象を表現するのに不可欠である。
係り受け解析の最近の進歩は、ポインタネットワークが文中の単語間の構文関係を効率的に解析することに優れていることを示している。
本稿では,最も正確な不連続な構成表現を生成するニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-05T15:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。