Fugu-MT 論文翻訳(概要): Machine-learning classifiers for logographic name matching in public health applications: approaches for incorporating phonetic, visual, and keystroke similarity in large-scale probabilistic record linkage

論文の概要: Machine-learning classifiers for logographic name matching in public health applications: approaches for incorporating phonetic, visual, and keystroke similarity in large-scale probabilistic record linkage

arxiv url: http://arxiv.org/abs/2001.01895v1
Date: Tue, 7 Jan 2020 05:21:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-13 21:12:05.288508
Title: Machine-learning classifiers for logographic name matching in public health applications: approaches for incorporating phonetic, visual, and keystroke similarity in large-scale probabilistic record linkage
Title（参考訳）: 公衆衛生分野における音素・視覚・キーストローク類似性を考慮した大規模確率的記録リンクへの機械学習分類法
Authors: Philip A. Collender, Zhiyue Tom Hu, Charles Li, Qu Cheng, Xintong Li, Yue You, Song Liang, Changhong Yang, Justin V. Remais
Abstract要約: 視覚的,音声的,キーストローク類似性の尺度を開発し,マッチング可能な名前ペアの同定を強化する。大規模確率的レコードリンクにおける名前類似度スコアを利用する3つの手法の評価を行った。この結果から,ログラフ名マッチングに視覚的,音声的,キーストローク的類似性を取り入れることの価値が示された。
参考スコア（独自算出の注目度）: 3.888501008639864
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Approximate string-matching methods to account for complex variation in highly discriminatory text fields, such as personal names, can enhance probabilistic record linkage. However, discriminating between matching and non-matching strings is challenging for logographic scripts, where similarities in pronunciation, appearance, or keystroke sequence are not directly encoded in the string data. We leverage a large Chinese administrative dataset with known match status to develop logistic regression and Xgboost classifiers integrating measures of visual, phonetic, and keystroke similarity to enhance identification of potentially-matching name pairs. We evaluate three methods of leveraging name similarity scores in large-scale probabilistic record linkage, which can adapt to varying match prevalence and information in supporting fields: (1) setting a threshold score based on predicted quality of name-matching across all record pairs; (2) setting a threshold score based on predicted discriminatory power of the linkage model; and (3) using empirical score distributions among matches and nonmatches to perform Bayesian adjustment of matching probabilities estimated from exact-agreement linkage. In experiments on holdout data, as well as data simulated with varying name error rates and supporting fields, a logistic regression classifier incorporated via the Bayesian method demonstrated marked improvements over exact-agreement linkage with respect to discriminatory power, match probability estimation, and accuracy, reducing the total number of misclassified record pairs by 21% in test data and up to an average of 93% in simulated datasets. Our results demonstrate the value of incorporating visual, phonetic, and keystroke similarity for logographic name matching, as well as the promise of our Bayesian approach to leverage name-matching within large-scale record linkage.
Abstract（参考訳）: 個人名などの高度に識別可能なテキストフィールドにおける複雑な変動を考慮に入れた近似文字列マッチング手法は、確率的記録結合を高めることができる。しかし、一致文字列と非一致文字列の区別は、発音、外観、キーストロークシーケンスの類似性が文字列データに直接エンコードされないロジグラフスクリプトでは難しい。我々は中国の大規模行政データセットを利用してロジスティック回帰とXgboost分類器を開発し、視覚的、音声的、キーストローク類似性の尺度を統合し、潜在的にマッチング可能な名前ペアの同定を強化する。 We evaluate three methods of leveraging name similarity scores in large-scale probabilistic record linkage, which can adapt to varying match prevalence and information in supporting fields: (1) setting a threshold score based on predicted quality of name-matching across all record pairs; (2) setting a threshold score based on predicted discriminatory power of the linkage model; and (3) using empirical score distributions among matches and nonmatches to perform Bayesian adjustment of matching probabilities estimated from exact-agreement linkage. ホールドアウトデータおよび様々な名前誤り率と支援フィールドをシミュレートしたデータ実験において、ベイズ法で組み込まれたロジスティック回帰分類器は、識別力、一致確率推定、正確性に関して、厳密な分離連鎖よりも顕著な改善を示し、テストデータでは、誤分類されたレコードペアの総数を21%、シミュレーションデータセットでは平均93%削減した。以上の結果から,視覚的,音韻的,キーストローク的類似性をロジグラフ名マッチングに組み込む価値と,大規模レコードリンクにおける名前マッチングを活用するベイズ的アプローチの可能性を実証した。

関連論文リスト

PCSR: Pseudo-label Consistency-Guided Sample Refinement for Noisy Correspondence Learning [17.302186298424836]
クロスモーダル検索は、意味的類似性によって異なるモダリティを整列することを目的としている。既存の手法では、画像とテキストのペアが完全に整列していると仮定し、実データでノイズ対応を見渡すことが多い。
論文参考訳（メタデータ） (2025-09-19T05:41:17Z)
TransClean: Finding False Positives in Multi-Source Entity Matching under Real-World Conditions via Transitive Consistency [43.06143768014157]
本研究では,実環境下でのエンティティマッチングアルゴリズムの偽陽性予測手法であるTransCleanを提案する。 TransCleanは、効率的で堅牢で高速な方法で複数のデータソースを操作するように設計されている。実験の結果,TransCleanはマルチソース環境でのエンティティマッチングにおいて,平均+24.42F1スコアの改善を誘導することがわかった。
論文参考訳（メタデータ） (2025-06-04T14:33:41Z)
LM-assisted keyword biasing with Aho-Corasick algorithm for Transducer-based ASR [3.841280537264271]
そこで本研究では,音声認識性能向上のためのライトオンザフライ方式を提案する。我々は、名前付きエンティティのバイアスリストと単語レベルのn-gram言語モデルと、Aho-Corasick文字列マッチングアルゴリズムに基づく浅い融合アプローチを組み合わせる。逆実時間係数の実用的差のない一般単語誤り率の21.6%の相対的な改善を実現した。
論文参考訳（メタデータ） (2024-09-20T13:53:37Z)
Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文参考訳（メタデータ） (2023-12-27T09:03:43Z)
Leveraging Ensemble Diversity for Robust Self-Training in the Presence of Sample Selection Bias [5.698050337128548]
半教師付き学習において、自己学習はよく知られたアプローチである。モデルが自信を持ってラベル付きデータに擬似ラベルを反復的に割り当て、ラベル付き例として扱う。ニューラルネットワークの場合、ソフトマックス予測確率はしばしば信頼度尺度として使用されるが、誤った予測であっても過度に信頼されていることが知られている。本稿では,線形分類器のアンサンブルの予測多様性に基づいて,$mathcalT$-similarityと呼ばれる新しい信頼度尺度を提案する。
論文参考訳（メタデータ） (2023-10-23T11:30:06Z)
JointMatch: A Unified Approach for Diverse and Collaborative Pseudo-Labeling to Semi-Supervised Text Classification [65.268245109828]
半教師付きテキスト分類(SSTC)は、ラベルのないデータを活用する能力によって注目を集めている。擬似ラベルに基づく既存のアプローチは、擬似ラベルバイアスと誤り蓄積の問題に悩まされる。我々は、最近の半教師付き学習からアイデアを統一することでこれらの課題に対処する、SSTCの総合的なアプローチであるJointMatchを提案する。
論文参考訳（メタデータ） (2023-10-23T05:43:35Z)
Understanding and Mitigating Spurious Correlations in Text Classification with Neighborhood Analysis [69.07674653828565]
機械学習モデルは、トレーニングセットに存在するが一般的な状況では当てはまらない急激な相関を利用する傾向にある。本稿では, 周辺分析と呼ばれる新しい視点から, 突発的相関がもたらす意味について考察する。本稿では,テキスト分類における素早い相関を緩和する正規化手法であるNFL(doN't Forget your Language)を提案する。
論文参考訳（メタデータ） (2023-05-23T03:55:50Z)
Concrete Score Matching: Generalized Score Matching for Discrete Data [109.12439278055213]
コンクレトスコア(Concrete score)とは、個別の設定のためのスコア(ステイン)の一般化である。コンクレトスコアマッチング(Concrete Score Matching)は、サンプルからこのようなスコアを学習するフレームワークである。
論文参考訳（メタデータ） (2022-11-02T00:41:37Z)
Active Learning by Feature Mixing [52.16150629234465]
本稿では,ALFA-Mixと呼ばれるバッチ能動学習手法を提案する。予測の不整合を求めることにより,不整合な特徴を持つインスタンスを同定する。これらの予測の不整合は、モデルが未認識のインスタンスで認識できない特徴を発見するのに役立ちます。
論文参考訳（メタデータ） (2022-03-14T12:20:54Z)
Visualizing Classifier Adjacency Relations: A Case Study in Speaker Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文参考訳（メタデータ） (2021-06-11T13:03:33Z)
Cross-domain Speech Recognition with Unsupervised Character-level Distribution Matching [60.8427677151492]
2つの領域における各文字間の微粒化適応を行うための文字レベルの分布マッチング手法であるCMatchを提案する。 Libri-Adaptデータセットを用いた実験の結果,提案手法はクロスデバイスとクロス環境の両方で14.39%,16.50%の単語誤り率(WER)を低減できることがわかった。
論文参考訳（メタデータ） (2021-04-15T14:36:54Z)
Evolving Multi-label Classification Rules by Exploiting High-order Label Correlation [2.9822184411723645]
マルチラベル分類タスクでは、各問題インスタンスは同時に複数のクラスに関連付けられている。ラベル間の相関は、ペアワイズ相関の取得や高次相関の活用など、様々なレベルで利用することができる。本稿では,教師付き学習分類器システムを用いて,ラベルのサブセット内での高次ラベル相関を利用することを目的とする。
論文参考訳（メタデータ） (2020-07-22T18:13:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。