論文の概要: Machine-learning classifiers for logographic name matching in public
health applications: approaches for incorporating phonetic, visual, and
keystroke similarity in large-scale probabilistic record linkage
- arxiv url: http://arxiv.org/abs/2001.01895v1
- Date: Tue, 7 Jan 2020 05:21:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 21:12:05.288508
- Title: Machine-learning classifiers for logographic name matching in public
health applications: approaches for incorporating phonetic, visual, and
keystroke similarity in large-scale probabilistic record linkage
- Title(参考訳): 公衆衛生分野における音素・視覚・キーストローク類似性を考慮した大規模確率的記録リンクへの機械学習分類法
- Authors: Philip A. Collender, Zhiyue Tom Hu, Charles Li, Qu Cheng, Xintong Li,
Yue You, Song Liang, Changhong Yang, Justin V. Remais
- Abstract要約: 視覚的,音声的,キーストローク類似性の尺度を開発し,マッチング可能な名前ペアの同定を強化する。
大規模確率的レコードリンクにおける名前類似度スコアを利用する3つの手法の評価を行った。
この結果から,ログラフ名マッチングに視覚的,音声的,キーストローク的類似性を取り入れることの価値が示された。
- 参考スコア(独自算出の注目度): 3.888501008639864
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Approximate string-matching methods to account for complex variation in
highly discriminatory text fields, such as personal names, can enhance
probabilistic record linkage. However, discriminating between matching and
non-matching strings is challenging for logographic scripts, where similarities
in pronunciation, appearance, or keystroke sequence are not directly encoded in
the string data. We leverage a large Chinese administrative dataset with known
match status to develop logistic regression and Xgboost classifiers integrating
measures of visual, phonetic, and keystroke similarity to enhance
identification of potentially-matching name pairs. We evaluate three methods of
leveraging name similarity scores in large-scale probabilistic record linkage,
which can adapt to varying match prevalence and information in supporting
fields: (1) setting a threshold score based on predicted quality of
name-matching across all record pairs; (2) setting a threshold score based on
predicted discriminatory power of the linkage model; and (3) using empirical
score distributions among matches and nonmatches to perform Bayesian adjustment
of matching probabilities estimated from exact-agreement linkage. In
experiments on holdout data, as well as data simulated with varying name error
rates and supporting fields, a logistic regression classifier incorporated via
the Bayesian method demonstrated marked improvements over exact-agreement
linkage with respect to discriminatory power, match probability estimation, and
accuracy, reducing the total number of misclassified record pairs by 21% in
test data and up to an average of 93% in simulated datasets. Our results
demonstrate the value of incorporating visual, phonetic, and keystroke
similarity for logographic name matching, as well as the promise of our
Bayesian approach to leverage name-matching within large-scale record linkage.
- Abstract(参考訳): 個人名などの高度に識別可能なテキストフィールドにおける複雑な変動を考慮に入れた近似文字列マッチング手法は、確率的記録結合を高めることができる。
しかし、一致文字列と非一致文字列の区別は、発音、外観、キーストロークシーケンスの類似性が文字列データに直接エンコードされないロジグラフスクリプトでは難しい。
我々は中国の大規模行政データセットを利用してロジスティック回帰とXgboost分類器を開発し、視覚的、音声的、キーストローク類似性の尺度を統合し、潜在的にマッチング可能な名前ペアの同定を強化する。
We evaluate three methods of leveraging name similarity scores in large-scale probabilistic record linkage, which can adapt to varying match prevalence and information in supporting fields: (1) setting a threshold score based on predicted quality of name-matching across all record pairs; (2) setting a threshold score based on predicted discriminatory power of the linkage model; and (3) using empirical score distributions among matches and nonmatches to perform Bayesian adjustment of matching probabilities estimated from exact-agreement linkage.
ホールドアウトデータおよび様々な名前誤り率と支援フィールドをシミュレートしたデータ実験において、ベイズ法で組み込まれたロジスティック回帰分類器は、識別力、一致確率推定、正確性に関して、厳密な分離連鎖よりも顕著な改善を示し、テストデータでは、誤分類されたレコードペアの総数を21%、シミュレーションデータセットでは平均93%削減した。
以上の結果から,視覚的,音韻的,キーストローク的類似性をロジグラフ名マッチングに組み込む価値と,大規模レコードリンクにおける名前マッチングを活用するベイズ的アプローチの可能性を実証した。
関連論文リスト
- LM-assisted keyword biasing with Aho-Corasick algorithm for Transducer-based ASR [3.841280537264271]
そこで本研究では,音声認識性能向上のためのライトオンザフライ方式を提案する。
我々は、名前付きエンティティのバイアスリストと単語レベルのn-gram言語モデルと、Aho-Corasick文字列マッチングアルゴリズムに基づく浅い融合アプローチを組み合わせる。
逆実時間係数の実用的差のない一般単語誤り率の21.6%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2024-09-20T13:53:37Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Leveraging Ensemble Diversity for Robust Self-Training in the Presence of Sample Selection Bias [5.698050337128548]
半教師付き学習において、自己学習はよく知られたアプローチである。モデルが自信を持ってラベル付きデータに擬似ラベルを反復的に割り当て、ラベル付き例として扱う。
ニューラルネットワークの場合、ソフトマックス予測確率はしばしば信頼度尺度として使用されるが、誤った予測であっても過度に信頼されていることが知られている。
本稿では,線形分類器のアンサンブルの予測多様性に基づいて,$mathcalT$-similarityと呼ばれる新しい信頼度尺度を提案する。
論文 参考訳(メタデータ) (2023-10-23T11:30:06Z) - JointMatch: A Unified Approach for Diverse and Collaborative
Pseudo-Labeling to Semi-Supervised Text Classification [65.268245109828]
半教師付きテキスト分類(SSTC)は、ラベルのないデータを活用する能力によって注目を集めている。
擬似ラベルに基づく既存のアプローチは、擬似ラベルバイアスと誤り蓄積の問題に悩まされる。
我々は、最近の半教師付き学習からアイデアを統一することでこれらの課題に対処する、SSTCの総合的なアプローチであるJointMatchを提案する。
論文 参考訳(メタデータ) (2023-10-23T05:43:35Z) - Understanding and Mitigating Spurious Correlations in Text
Classification with Neighborhood Analysis [69.07674653828565]
機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。
本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。
本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
論文 参考訳(メタデータ) (2023-05-23T03:55:50Z) - Active Learning by Feature Mixing [52.16150629234465]
本稿では,ALFA-Mixと呼ばれるバッチ能動学習手法を提案する。
予測の不整合を求めることにより,不整合な特徴を持つインスタンスを同定する。
これらの予測の不整合は、モデルが未認識のインスタンスで認識できない特徴を発見するのに役立ちます。
論文 参考訳(メタデータ) (2022-03-14T12:20:54Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Cross-domain Speech Recognition with Unsupervised Character-level
Distribution Matching [60.8427677151492]
2つの領域における各文字間の微粒化適応を行うための文字レベルの分布マッチング手法であるCMatchを提案する。
Libri-Adaptデータセットを用いた実験の結果,提案手法はクロスデバイスとクロス環境の両方で14.39%,16.50%の単語誤り率(WER)を低減できることがわかった。
論文 参考訳(メタデータ) (2021-04-15T14:36:54Z) - Evolving Multi-label Classification Rules by Exploiting High-order Label
Correlation [2.9822184411723645]
マルチラベル分類タスクでは、各問題インスタンスは同時に複数のクラスに関連付けられている。
ラベル間の相関は、ペアワイズ相関の取得や高次相関の活用など、様々なレベルで利用することができる。
本稿では,教師付き学習分類器システムを用いて,ラベルのサブセット内での高次ラベル相関を利用することを目的とする。
論文 参考訳(メタデータ) (2020-07-22T18:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。