論文の概要: Parsing Through Boundaries in Chinese Word Segmentation
- arxiv url: http://arxiv.org/abs/2503.23091v1
- Date: Sat, 29 Mar 2025 14:24:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:36:54.564811
- Title: Parsing Through Boundaries in Chinese Word Segmentation
- Title(参考訳): 中国語単語セグメンテーションにおける境界を通した構文解析
- Authors: Yige Chen, Zelong Li, Changbing Yang, Cindy Zhang, Amandisa Cady, Ai Ka Lee, Zejiao Zeng, Haihua Pan, Jungyeul Park,
- Abstract要約: 英語とは異なり、中国語は明示的な単語境界を欠いているため、区分けは必要であり、本質的に曖昧である。
本研究は, 単語分割と構文解析の複雑な関係に注目し, 中国語の係り受け構造をどう形成するかを明確にする。
- 参考スコア(独自算出の注目度): 4.74872130711676
- License:
- Abstract: Chinese word segmentation is a foundational task in natural language processing (NLP), with far-reaching effects on syntactic analysis. Unlike alphabetic languages like English, Chinese lacks explicit word boundaries, making segmentation both necessary and inherently ambiguous. This study highlights the intricate relationship between word segmentation and syntactic parsing, providing a clearer understanding of how different segmentation strategies shape dependency structures in Chinese. Focusing on the Chinese GSD treebank, we analyze multiple word boundary schemes, each reflecting distinct linguistic and computational assumptions, and examine how they influence the resulting syntactic structures. To support detailed comparison, we introduce an interactive web-based visualization tool that displays parsing outcomes across segmentation methods.
- Abstract(参考訳): 中国語の単語セグメンテーションは自然言語処理(NLP)の基本課題であり、構文解析に大きく影響している。
英語のようなアルファベットの言語とは異なり、中国語は明示的な単語境界を欠いており、必然的かつ本質的に曖昧である。
本研究は, 単語分割と構文解析の複雑な関係に注目し, 中国語の係り受け構造をどう形成するかを明確にする。
中国のGSDツリーバンクに着目し,複数の単語境界スキームを解析し,それぞれ異なる言語的および計算的な仮定を反映し,それらが結果として生じる構文構造にどのように影響するかを検討する。
詳細な比較を支援するために,セグメンテーション手法間の解析結果を表示する対話型Webベース可視化ツールを提案する。
関連論文リスト
- Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。
まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。
さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2024-07-14T15:02:54Z) - Character-Level Chinese Dependency Parsing via Modeling Latent Intra-Word Structure [11.184330703168893]
本稿では,中国語における単語の内部構造をモデル化する。
制約付きアイズナーアルゴリズムは、文字レベルの木の互換性を確保するために実装されている。
詳細な分析により、粗大なパース戦略により、より言語学的に妥当な単語内構造を予測することができることが明らかになった。
論文 参考訳(メタデータ) (2024-06-06T06:23:02Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - Joint Chinese Word Segmentation and Span-based Constituency Parsing [11.080040070201608]
本研究は,中国語の単語セグメント化とSpanに基づくコンストラクタシーパーシングを共同で行う手法を提案する。
実験により,提案アルゴリズムは, CTB 5.1上での関節分割と補間のための最近のモデルよりも優れていた。
論文 参考訳(メタデータ) (2022-11-03T08:19:00Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-stage
Span Labeling [0.2624902795082451]
SpanSegTagと名づけられた中国語単語分割と音声タグ付けのためのニューラルモデルを提案する。
実験の結果,BERTベースのモデルであるSpanSegTagは,CTB5,CTB6,UDデータセット上での競合性能を達成した。
論文 参考訳(メタデータ) (2021-12-17T12:59:02Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Augmenting Part-of-speech Tagging with Syntactic Information for
Vietnamese and Chinese [0.32228025627337864]
我々は,ベトナム語の単語分割と音声タグ付けの一部を,簡易な選挙区を用いて改善するという考え方を実装した。
共同語分割とパート・オブ・音声タギングのためのニューラルモデルは,音節に基づく構成のアーキテクチャを持つ。
このモデルは、予測された単語境界と、他のツールによる音声タグで拡張することができる。
論文 参考訳(メタデータ) (2021-02-24T08:57:02Z) - End-to-End Chinese Parsing Exploiting Lexicons [15.786281545363448]
本稿では,単語分割,部分音声タグ,依存関係構造を共同で学習する文字入力に基づくエンドツーエンド中国語構文解析モデルを提案する。
解析モデルは,文字入力を外部の単語知識で豊かにすることができるワードチャートグラフアテンションネットワークに依存している。
論文 参考訳(メタデータ) (2020-12-08T12:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。