論文の概要: Character-Level Chinese Dependency Parsing via Modeling Latent Intra-Word Structure
- arxiv url: http://arxiv.org/abs/2406.03772v1
- Date: Thu, 6 Jun 2024 06:23:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 18:15:59.955004
- Title: Character-Level Chinese Dependency Parsing via Modeling Latent Intra-Word Structure
- Title(参考訳): 単語内構造をモデル化した漢字レベル中国語の係り受け解析
- Authors: Yang Hou, Zhenghua Li,
- Abstract要約: 本稿では,中国語における単語の内部構造をモデル化する。
制約付きアイズナーアルゴリズムは、文字レベルの木の互換性を確保するために実装されている。
詳細な分析により、粗大なパース戦略により、より言語学的に妥当な単語内構造を予測することができることが明らかになった。
- 参考スコア(独自算出の注目度): 11.184330703168893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Revealing the syntactic structure of sentences in Chinese poses significant challenges for word-level parsers due to the absence of clear word boundaries. To facilitate a transition from word-level to character-level Chinese dependency parsing, this paper proposes modeling latent internal structures within words. In this way, each word-level dependency tree is interpreted as a forest of character-level trees. A constrained Eisner algorithm is implemented to ensure the compatibility of character-level trees, guaranteeing a single root for intra-word structures and establishing inter-word dependencies between these roots. Experiments on Chinese treebanks demonstrate the superiority of our method over both the pipeline framework and previous joint models. A detailed analysis reveals that a coarse-to-fine parsing strategy empowers the model to predict more linguistically plausible intra-word structures.
- Abstract(参考訳): 中国語で文の構文構造を明らかにすることは、単語境界が明確でないため、単語レベルのパーサーにとって大きな課題となる。
単語のレベルから文字レベルの中国語の依存性解析への移行を容易にするために,単語の内部構造をモデル化する手法を提案する。
このように、各単語レベルの依存木は、文字レベルの木の森として解釈される。
制約付きアイズナーアルゴリズムは、文字レベルの木との互換性を確保するために実装され、単語内構造のための単一のルートを保証し、これらのルート間の単語間の依存関係を確立する。
中国のツリーバンクの実験では、パイプラインフレームワークと以前のジョイントモデルの両方よりも、我々の手法が優れていることが示されている。
詳細な分析により、粗大なパース戦略により、より言語学的に妥当な単語内構造を予測することができることが明らかになった。
関連論文リスト
- Unsupervised Morphological Tree Tokenizer [36.584680344291556]
トークン化のための形態的構造ガイダンスを導入し、単語の文字レベル構造を誘導する深層モデルを提案する。
具体的には、ディープモデルは、語の内部構造と表現を@textitOverriding$というメカニズムで共同でエンコードし、モルヒムの非分解性を保証する。
提案アルゴリズムは,提案手法により,単語をトップダウン方式で語彙マッチングによりトークン化する。
論文 参考訳(メタデータ) (2024-06-21T15:35:49Z) - Linguistic Structure Induction from Language Models [1.8130068086063336]
この論文は、教師なし環境で言語モデル(LM)から選挙区構造と依存関係構造を生成することに焦点を当てている。
本稿では,エンコーダネットワークにトランスフォーマーアーキテクチャを組み込んだStructFormer(SF)について詳細に検討し,その構成と依存性について述べる。
この分野の課題を分析し、対処するための6つの実験を提示します。
論文 参考訳(メタデータ) (2024-03-11T16:54:49Z) - Unsupervised Chunking with Hierarchical RNN [62.15060807493364]
本稿では,非階層的手法で単語をグループ化する構文的タスクであるチャンキングに対する教師なしアプローチを紹介する。
本稿では,単語-チャンク・チャンク-文合成をモデル化した2層階層型階層型リカレントニューラルネットワーク(HRNN)を提案する。
CoNLL-2000データセットの実験では、既存の教師なし手法よりも顕著な改善が見られ、フレーズF1スコアが最大6ポイント向上した。
論文 参考訳(メタデータ) (2023-09-10T02:55:12Z) - Keywords and Instances: A Hierarchical Contrastive Learning Framework
Unifying Hybrid Granularities for Text Generation [59.01297461453444]
入力テキスト中のハイブリッドな粒度意味を統一する階層的コントラスト学習機構を提案する。
実験により,本モデルがパラフレージング,対話生成,ストーリーテリングタスクにおいて,競争ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2022-05-26T13:26:03Z) - A Character-level Span-based Model for Mandarin Prosodic Structure
Prediction [36.90699361223442]
最適な韻律構造木を得るために,スパンに基づくマンダリン韻律構造予測モデルを提案する。
リッチ言語的特徴は漢字レベルのBERTによって提供され、自己注意型アーキテクチャでエンコーダに送信される。
提案手法は,異なるレベルの韻律ラベルを同時に予測し,その処理を漢字から直接行うことができる。
論文 参考訳(メタデータ) (2022-03-31T09:47:08Z) - Incorporating Constituent Syntax for Coreference Resolution [50.71868417008133]
本稿では,構成構文構造をグラフベースで組み込む手法を提案する。
また、高次近傍情報を利用して構成木に富んだ構造をエンコードすることも検討する。
on the English and Chinese parts of OntoNotes 5.0 benchmark shows that our proposed model beats a strong baseline or a new-of-the-art performance。
論文 参考訳(メタデータ) (2022-02-22T07:40:42Z) - Transition-based Bubble Parsing: Improvements on Coordination Structure
Prediction [18.71574180551552]
本稿では,気泡増進構造解析のための遷移システムとニューラルモデルを提案する。
The English Penn Treebank and the English GENIA corpus での実験結果から,我々の研究は構造予測のコーディネートにおける過去の最先端のアプローチに勝っていることが示された。
論文 参考訳(メタデータ) (2021-07-14T18:00:05Z) - An In-depth Study on Internal Structure of Chinese Words [34.864343591706984]
本研究は,中国語の単語の深い内部構造を,構文的関係を識別するための11のラベルを持つ依存木としてモデル化することを提案する。
中国語の Penn Treebank から 30K 以上の多字語からなる単語内構造木バンク (WIST) を手動で注釈する。
我々は,中国語の単語形成に関する知見を明らかにするために,WISTに関する詳細な,興味深い分析を行った。
論文 参考訳(メタデータ) (2021-06-01T09:09:51Z) - Unsupervised Distillation of Syntactic Information from Contextualized
Word Representations [62.230491683411536]
我々は,ニューラルネットワーク表現における意味論と構造学の非教師なしの絡み合いの課題に取り組む。
この目的のために、構造的に類似しているが意味的に異なる文群を自動的に生成する。
我々は、我々の変換クラスタベクトルが、語彙的意味論ではなく構造的特性によって空間に現れることを実証する。
論文 参考訳(メタデータ) (2020-10-11T15:13:18Z) - Exploiting Syntactic Structure for Better Language Modeling: A Syntactic
Distance Approach [78.77265671634454]
我々はマルチタスクの目的、すなわち、モデルが単語を同時に予測し、また「シンタクティック距離」と呼ばれる形態で真実解析木を解析する。
Penn Treebank と Chinese Treebank のデータセットによる実験結果から,地上の真理解析木を追加の訓練信号として提供すると,そのモデルはより低いパープレキシティを実現し,より良い品質で木を誘導できることが示された。
論文 参考訳(メタデータ) (2020-05-12T15:35:00Z) - Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文 参考訳(メタデータ) (2020-02-19T08:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。