論文の概要: Joint Chinese Word Segmentation and Span-based Constituency Parsing
- arxiv url: http://arxiv.org/abs/2211.01638v1
- Date: Thu, 3 Nov 2022 08:19:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 12:13:44.111786
- Title: Joint Chinese Word Segmentation and Span-based Constituency Parsing
- Title(参考訳): 連接型中国語単語分割とスパン構造解析
- Authors: Zhicheng Wang, Tianyu Shi, Cong Liu
- Abstract要約: 本研究は,中国語の単語セグメント化とSpanに基づくコンストラクタシーパーシングを共同で行う手法を提案する。
実験により,提案アルゴリズムは, CTB 5.1上での関節分割と補間のための最近のモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 11.080040070201608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In constituency parsing, span-based decoding is an important direction.
However, for Chinese sentences, because of their linguistic characteristics, it
is necessary to utilize other models to perform word segmentation first, which
introduces a series of uncertainties and generally leads to errors in the
computation of the constituency tree afterward. This work proposes a method for
joint Chinese word segmentation and Span-based Constituency Parsing by adding
extra labels to individual Chinese characters on the parse trees. Through
experiments, the proposed algorithm outperforms the recent models for joint
segmentation and constituency parsing on CTB 5.1.
- Abstract(参考訳): 選挙区解析において、スパンベースの復号化は重要な方向である。
しかし、中国語の文では、その言語的特徴から、他のモデルを用いてまず単語のセグメンテーションを行い、一連の不確実性を導入し、一般に構成木の計算に誤りをもたらす必要がある。
本研究は,中国語の単語分割とSpanに基づくコンストラクタシーパーシングを併用し,パースツリー上の個々の漢字にラベルを追加する手法を提案する。
実験により,提案アルゴリズムは, CTB 5.1上での関節分割と補間のための最近のモデルよりも優れていた。
関連論文リスト
- A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Discourse Representation Structure Parsing for Chinese [8.846860617823005]
本研究では,中国語意味表現のためのラベル付きデータがない場合の中国語意味解析の実現可能性について検討する。
そこで本研究では,中国語意味解析のためのテストスイートを提案し,解析性能の詳細な評価を行う。
実験の結果,中国語の意味解析の難易度は,主に副詞が原因であることが示唆された。
論文 参考訳(メタデータ) (2023-06-16T09:47:45Z) - On Parsing as Tagging [66.31276017088477]
そこで我々は,現在最先端の選挙区タグであるテトラタグを減らして,シフト-リデュース解析を行う方法を示す。
我々は、線形化器、学習者、復号器の異なる選択でタグ付けパイプラインの分類を実証的に評価する。
論文 参考訳(メタデータ) (2022-11-14T13:37:07Z) - A Character-level Span-based Model for Mandarin Prosodic Structure
Prediction [36.90699361223442]
最適な韻律構造木を得るために,スパンに基づくマンダリン韻律構造予測モデルを提案する。
リッチ言語的特徴は漢字レベルのBERTによって提供され、自己注意型アーキテクチャでエンコーダに送信される。
提案手法は,異なるレベルの韻律ラベルを同時に予測し,その処理を漢字から直接行うことができる。
論文 参考訳(メタデータ) (2022-03-31T09:47:08Z) - Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-stage
Span Labeling [0.2624902795082451]
SpanSegTagと名づけられた中国語単語分割と音声タグ付けのためのニューラルモデルを提案する。
実験の結果,BERTベースのモデルであるSpanSegTagは,CTB5,CTB6,UDデータセット上での競合性能を達成した。
論文 参考訳(メタデータ) (2021-12-17T12:59:02Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Augmenting Part-of-speech Tagging with Syntactic Information for
Vietnamese and Chinese [0.32228025627337864]
我々は,ベトナム語の単語分割と音声タグ付けの一部を,簡易な選挙区を用いて改善するという考え方を実装した。
共同語分割とパート・オブ・音声タギングのためのニューラルモデルは,音節に基づく構成のアーキテクチャを持つ。
このモデルは、予測された単語境界と、他のツールによる音声タグで拡張することができる。
論文 参考訳(メタデータ) (2021-02-24T08:57:02Z) - End-to-End Chinese Parsing Exploiting Lexicons [15.786281545363448]
本稿では,単語分割,部分音声タグ,依存関係構造を共同で学習する文字入力に基づくエンドツーエンド中国語構文解析モデルを提案する。
解析モデルは,文字入力を外部の単語知識で豊かにすることができるワードチャートグラフアテンションネットワークに依存している。
論文 参考訳(メタデータ) (2020-12-08T12:24:36Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。