論文の概要: An In-depth Study on Internal Structure of Chinese Words
- arxiv url: http://arxiv.org/abs/2106.00334v1
- Date: Tue, 1 Jun 2021 09:09:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:25:14.494051
- Title: An In-depth Study on Internal Structure of Chinese Words
- Title(参考訳): 中国語単語の内部構造に関する詳細な研究
- Authors: Chen Gong, Saihao Huang, Houquan Zhou, Zhenghua Li, Min Zhang, Zhefeng
Wang, Baoxing Huai, Nicholas Jing Yuan
- Abstract要約: 本研究は,中国語の単語の深い内部構造を,構文的関係を識別するための11のラベルを持つ依存木としてモデル化することを提案する。
中国語の Penn Treebank から 30K 以上の多字語からなる単語内構造木バンク (WIST) を手動で注釈する。
我々は,中国語の単語形成に関する知見を明らかにするために,WISTに関する詳細な,興味深い分析を行った。
- 参考スコア(独自算出の注目度): 34.864343591706984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unlike English letters, Chinese characters have rich and specific meanings.
Usually, the meaning of a word can be derived from its constituent characters
in some way. Several previous works on syntactic parsing propose to annotate
shallow word-internal structures for better utilizing character-level
information. This work proposes to model the deep internal structures of
Chinese words as dependency trees with 11 labels for distinguishing syntactic
relationships. First, based on newly compiled annotation guidelines, we
manually annotate a word-internal structure treebank (WIST) consisting of over
30K multi-char words from Chinese Penn Treebank. To guarantee quality, each
word is independently annotated by two annotators and inconsistencies are
handled by a third senior annotator. Second, we present detailed and
interesting analysis on WIST to reveal insights on Chinese word formation.
Third, we propose word-internal structure parsing as a new task, and conduct
benchmark experiments using a competitive dependency parser. Finally, we
present two simple ways to encode word-internal structures, leading to
promising gains on the sentence-level syntactic parsing task.
- Abstract(参考訳): 英語の文字とは異なり、漢字は豊かで特定の意味を持つ。
通常、単語の意味は何らかの形でその構成文字から派生することができる。
構文解析に関するいくつかの以前の研究は、文字レベルの情報を活用するために浅い単語内部構造を注釈付けすることを提案した。
本研究は,中国語単語の深い内部構造を,構文的関係を識別するための11のラベルを持つ依存木としてモデル化することを提案する。
まず,新たにコンパイルされたアノテーションガイドラインに基づいて,中国ペンツリーバンクの30万語以上の多字語からなる単語内部構造木バンク(WIST)を手作業で注釈する。
品質を保証するため、各単語は独立して2つの注釈により注釈され、不整合は第3上級注釈者によって処理される。
第2に,中国語の単語形成に関する知見を明らかにするために,WISTに関する詳細な,興味深い分析を行った。
第3に,新しいタスクとして単語内構造解析を提案し,競合依存構文解析器を用いてベンチマーク実験を行う。
最後に,単語内部構造を符号化する2つの簡単な方法を提案する。
関連論文リスト
- Integrating Supertag Features into Neural Discontinuous Constituent Parsing [0.0]
伝統的な選挙区の見解では、構成要素は隣接した単語で構成されており、ドイツ語のような言語で一般的である。
トランジションベースの構文解析は、大きな注釈付きコーパス上で教師あり学習を用いて生のテキストを入力した木を生成する。
論文 参考訳(メタデータ) (2024-10-11T12:28:26Z) - Character-Level Chinese Dependency Parsing via Modeling Latent Intra-Word Structure [11.184330703168893]
本稿では,中国語における単語の内部構造をモデル化する。
制約付きアイズナーアルゴリズムは、文字レベルの木の互換性を確保するために実装されている。
詳細な分析により、粗大なパース戦略により、より言語学的に妥当な単語内構造を予測することができることが明らかになった。
論文 参考訳(メタデータ) (2024-06-06T06:23:02Z) - Structured Dialogue Discourse Parsing [79.37200787463917]
談話解析は、多人数会話の内部構造を明らかにすることを目的としている。
本稿では,符号化と復号化という2つの観点から,従来の作業を改善する原理的手法を提案する。
実験の結果,本手法は,STACでは2.3,Mollweniでは1.5,先行モデルでは2.3を上回った。
論文 参考訳(メタデータ) (2023-06-26T22:51:01Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - Exploiting Word Semantics to Enrich Character Representations of Chinese
Pre-trained Models [12.0190584907439]
本稿では,単語構造を利用して語彙意味を事前学習したモデルの文字表現に統合する手法を提案する。
提案手法は,中国の異なるNLPタスクにおけるBERT,BERT-wwm,ERNIEよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-07-13T02:28:08Z) - Incorporating Constituent Syntax for Coreference Resolution [50.71868417008133]
本稿では,構成構文構造をグラフベースで組み込む手法を提案する。
また、高次近傍情報を利用して構成木に富んだ構造をエンコードすることも検討する。
on the English and Chinese parts of OntoNotes 5.0 benchmark shows that our proposed model beats a strong baseline or a new-of-the-art performance。
論文 参考訳(メタデータ) (2022-02-22T07:40:42Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - End-to-End Chinese Parsing Exploiting Lexicons [15.786281545363448]
本稿では,単語分割,部分音声タグ,依存関係構造を共同で学習する文字入力に基づくエンドツーエンド中国語構文解析モデルを提案する。
解析モデルは,文字入力を外部の単語知識で豊かにすることができるワードチャートグラフアテンションネットワークに依存している。
論文 参考訳(メタデータ) (2020-12-08T12:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。