論文の概要: Decolonising Data Systems: Using Jyutping or Pinyin as tonal representations of Chinese names for data linkage
- arxiv url: http://arxiv.org/abs/2409.13706v1
- Date: Fri, 6 Sep 2024 12:01:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 05:46:28.505840
- Title: Decolonising Data Systems: Using Jyutping or Pinyin as tonal representations of Chinese names for data linkage
- Title(参考訳): データシステムのデコロン化--Jyutping や Pinyin をデータリンクのための中国語名の音節表現として使う
- Authors: Joseph Lam, Mario Cortina-Borja, Robert Aldridge, Ruth Blackburn, Katie Harron,
- Abstract要約: データ品質を選択的に妥協するメカニズムは、名前のロマン化である。
漢字の標準化されていないロマン化は、中国人移民にとってリンクレートが低くなった。
本論説は、漢名を持つ個人のリンク率や精度を向上させるため、広東語(Jyutping)や中国語(Pinyin)の標準化されたロマン化システムの使用を示唆するものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Data linkage is increasingly used in health research and policy making and is relied on for understanding health inequalities. However, linked data is only as useful as the underlying data quality, and differential linkage rates may induce selection bias in the linked data. A mechanism that selectively compromises data quality is name romanisation. Converting text of a different writing system into Latin based writing, or romanisation, has long been the standard process of representing names in character-based writing systems such as Chinese, Vietnamese, and other languages such as Swahili. Unstandardised romanisation of Chinese characters, due in part to problems of preserving the correct name orders the lack of proper phonetic representation of a tonal language, has resulted in poor linkage rates for Chinese immigrants. This opinion piece aims to suggests that the use of standardised romanisation systems for Cantonese (Jyutping) or Mandarin (Pinyin) Chinese, which incorporate tonal information, could improve linkage rates and accuracy for individuals with Chinese names. We used 771 Chinese and English names scraped from openly available sources, and compared the utility of Jyutping, Pinyin and the Hong Kong Government Romanisation system (HKG-romanisation) for representing Chinese names. We demonstrate that both Jyutping and Pinyin result in fewer errors compared with the HKG-romanisation system. We suggest that collecting and preserving people's names in their original writing systems is ethically and socially pertinent. This may inform development of language-specific pre-processing and linkage paradigms that result in more inclusive research data which better represents the targeted populations.
- Abstract(参考訳): データリンクは、健康研究や政策作成にますます使われ、健康不平等の理解に頼っている。
しかし、リンクされたデータは、基礎となるデータ品質と同じくらいに有用であり、差分リンクレートは、リンクされたデータの選択バイアスを引き起こす可能性がある。
データ品質を選択的に妥協するメカニズムは、名前のロマン化である。
異なる文字体系のテキストをラテン語ベースの文字に変換することは、中国語、ベトナム語、スワヒリ語などの文字ベースの文字体系で名前を表現する標準的なプロセスである。
漢字の標準化されていないロマン化は、正しい名前の順序を保つという問題や、音節言語の適切な音声表現の欠如が原因で、中国人移民のリンク率の低下を招いた。
本論説は、漢名を持つ個人のリンク率や精度を向上させるため、広東語(Jyutping)や中国語(Pinyin)の標準化されたロマン化システムの使用を示唆するものである。
公開資料から抽出した中国語と英語の771名を用いて,中国名を表すためにJyutping,Pinyin,HKG-romanisation(Hong Kong Government Romanization system)の有用性を比較した。
我々は,Jyutping と Pinyin の両者が,HKG-romanization システムと比較して誤差が少ないことを示した。
従来の書記システムにおける人名収集・保存は倫理的・社会的に関係があることを示唆する。
これにより、言語固有の前処理とリンクのパラダイムが発達し、より包括的な研究データが得られる。
関連論文リスト
- When Does Classical Chinese Help? Quantifying Cross-Lingual Transfer in Hanja and Kanbun [48.07219104902607]
古典中国語から漢語・漢文への言語間移動可能性の仮定を疑問視する。
実験の結果,漢文で書かれた古代朝鮮語文書の言語モデル性能に対する古典中国語データセットの影響は最小限であった。
論文 参考訳(メタデータ) (2024-11-07T15:59:54Z) - Enhancing Cross-lingual Transfer via Phonemic Transcription Integration [57.109031654219294]
PhoneXLは、音素転写を言語間移動のための追加のモダリティとして組み込んだフレームワークである。
本研究は, 音素転写が, 言語間移動を促進するために, 正書法以外の重要な情報を提供することを示すものである。
論文 参考訳(メタデータ) (2023-07-10T06:17:33Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named
Entity Recognition [21.190288516462704]
本稿では,中国語NERの性能向上を目的とした,MECT(Multi-metadata Embedding based Cross-Transformer)を提案する。
具体的には、2ストリームのトランスフォーマーにマルチメタメタを埋め込み、漢字の特徴とラジカルレベルの埋め込みを統合する。
漢字の構造的特徴により、MECTはNERのための漢字の意味情報をよりよく捉えることができる。
論文 参考訳(メタデータ) (2021-07-12T13:39:06Z) - ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin
Information [32.70080326854314]
我々は,漢字のグリフとピニイン情報を事前学習に組み込んだ ChineseBERT を提案する。
提案した ChineseBERT モデルは,トレーニングステップの少ないベースラインモデルよりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-06-30T13:06:00Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Read, Listen, and See: Leveraging Multimodal Information Helps Chinese
Spell Checking [20.74049189959078]
本稿では,漢字のマルチモーダル情報を直接活用して,ReaLiSeという中国語スペルチェッカーを提案する。
ReaLiSeは、(1)入力文字のセマンティック、音声、グラフィック情報をキャプチャし、(2)これらのモダリティに情報を混ぜて正しい出力を予測することによって、CSCタスクをモデル化する。
SIGHANベンチマークの実験では、提案されたモデルは大きなマージンで強いベースラインを上回ります。
論文 参考訳(メタデータ) (2021-05-26T02:38:11Z) - Injecting Word Information with Multi-Level Word Adapter for Chinese
Spoken Language Understanding [65.01421041485247]
我々は、単語情報を注入することで、中国語の音声理解(SLU)を改善する。
我々のモデルは有用な単語情報をキャプチャし、最先端の性能を達成することができる。
論文 参考訳(メタデータ) (2020-10-08T11:11:05Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z) - g2pM: A Neural Grapheme-to-Phoneme Conversion Package for Mandarin
Chinese Based on a New Open Benchmark Dataset [14.323478990713477]
中国語の多音不明瞭化のための99,000以上の文からなる新しいベンチマークデータセットを提案する。
私たちは、その上に単純なニューラルネットワークモデルをトレーニングし、既存のG2Pシステムよりも優れていることを見つけます。
論文 参考訳(メタデータ) (2020-04-07T05:44:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。