論文の概要: Chinese Word Boundary Recovery through Character Alignment Projection
- arxiv url: http://arxiv.org/abs/2605.28128v1
- Date: Wed, 27 May 2026 08:17:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.880767
- Title: Chinese Word Boundary Recovery through Character Alignment Projection
- Title(参考訳): 文字アライメント投影による中国語単語境界回復
- Authors: Lusha Wang, Yuchen Li, Su Yuan, Jungyeul Park,
- Abstract要約: 本稿では、アライメントベースの投影タスクとして中国語単語境界回復を定式化する。
まず2つの文字列を文字レベルでアライメントし、次にターゲット側の単語境界をソースに投影する。
- 参考スコア(独自算出の注目度): 6.453805083012699
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Chinese word segmentation is especially fragile in non-standard text, where language learner errors and other character-level divergences disrupt the word boundaries assumed by downstream annotation and evaluation. This paper formulates Chinese word boundary recovery as an alignment-based projection task. Given a noisy source sentence and a cleaner target counterpart, we first align the two strings at the character level and then project target-side word boundaries back onto the source. Beyond the recovery method itself, we introduce two evaluation resources: a manually checked learner Chinese benchmark based on MuCGEC and a controlled synthetic benchmark derived from the Chinese Penn Treebank. Experiments show that direct segmentation remains vulnerable to compound fragmentation in learner input, whereas the proposed two step projection method corrects many over-segmentation errors by using the corrected target to recover source-side word spans. The results show that word boundary recovery is distinct from ordinary segmentation and that alignment projection provides a principled mechanism for stabilizing Chinese annotation and evaluation under noisy input.
- Abstract(参考訳): 中国語の単語セグメンテーションは、非標準テキストでは特に脆弱であり、言語学習者エラーやその他の文字レベルの相違により、下流のアノテーションと評価によって仮定される単語境界が破壊される。
本稿では、アライメントベースの投影タスクとして中国語単語境界回復を定式化する。
ノイズの多いソース文とよりクリーンなターゲット文が与えられた場合、まず2つの文字列を文字レベルでアライメントし、ターゲット側の単語境界をソースに投影する。
回復方法の他に,MuCGECに基づく手動チェックによる中国語のベンチマークと,中国語のPenn Treebankから派生した合成ベンチマークという2つの評価資源を導入する。
実験の結果, 直接セグメント化は, 学習者の入力において複合断片化に弱いままであり, 提案した2ステッププロジェクション法は, 修正したターゲットを用いて多くの過剰セグメント誤差を補正し, ソース側単語スパンを復元する。
その結果、単語境界回復は通常のセグメンテーションと異なり、アライメントプロジェクションは中国語の注釈や評価をノイズのある入力で安定化するための原則的なメカニズムを提供することが示された。
関連論文リスト
- Parsing Through Boundaries in Chinese Word Segmentation [5.144001661743487]
英語とは異なり、中国語は明示的な単語境界を欠いているため、区分けは必要であり、本質的に曖昧である。
本研究は, 単語分割と構文解析の複雑な関係に注目し, 中国語の係り受け構造をどう形成するかを明確にする。
論文 参考訳(メタデータ) (2025-03-29T14:24:02Z) - Chinese Character Recognition with Radical-Structured Stroke Trees [51.8541677234175]
我々は各漢字を,その根本的構造に従って整理されたストロークツリーとして表現する。
本稿では,2段階の分解フレームワークを提案し,特徴-ラディカルデコーダがラジカル構造とラジカル領域を知覚する。
Radical-to-Stroke Decoderはさらに、ラジカル領域の特徴に応じてストロークシーケンスを予測する。
論文 参考訳(メタデータ) (2022-11-24T10:28:55Z) - Joint Chinese Word Segmentation and Span-based Constituency Parsing [11.080040070201608]
本研究は,中国語の単語セグメント化とSpanに基づくコンストラクタシーパーシングを共同で行う手法を提案する。
実験により,提案アルゴリズムは, CTB 5.1上での関節分割と補間のための最近のモデルよりも優れていた。
論文 参考訳(メタデータ) (2022-11-03T08:19:00Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - Beyond Offline Mapping: Learning Cross Lingual Word Embeddings through
Context Anchoring [41.77270308094212]
英語以外の言語における単語埋め込みのための代替マッピング手法を提案する。
2つの固定埋め込み空間を整列させるのではなく、対象言語埋め込みを固定し、それらに整列したソースコード言語に対する新しい埋め込み集合を学習することで機能する。
提案手法は,従来のバイリンガル語彙誘導法よりも優れており,下流XNLIタスクにおける競合結果が得られる。
論文 参考訳(メタデータ) (2020-12-31T17:10:14Z) - Unsupervised Word Translation Pairing using Refinement based Point Set
Registration [8.568050813210823]
単語埋め込みの言語間アライメントは、言語間の知識伝達において重要な役割を果たす。
現在の教師なしのアプローチは、言語にまたがる単語埋め込み空間の幾何学的構造における類似性に依存している。
本稿では,バイリンガル単語の共有ベクトル空間への埋め込みを教師なしでマッピングするBioSpereを提案する。
論文 参考訳(メタデータ) (2020-11-26T09:51:29Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z) - Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。
単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。
これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文 参考訳(メタデータ) (2020-02-10T03:27:21Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。