論文の概要: Leveraging Large Language Models for Fuzzy String Matching in Political Science
- arxiv url: http://arxiv.org/abs/2403.18218v1
- Date: Wed, 27 Mar 2024 03:04:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 18:36:01.765067
- Title: Leveraging Large Language Models for Fuzzy String Matching in Political Science
- Title(参考訳): 政治学におけるファジィ文字列マッチングのための大規模言語モデルの活用
- Authors: Yu Wang,
- Abstract要約: 政治学者が異なる情報源のデータを組み合わせている場合、ファジィ文字列マッチングは依然として重要な問題だ。
既存のマッチング方法は、レヴェンシュテイン距離やコサイン類似性のような文字列距離に依存する。
我々は、この問題を簡単かつ直感的にサイドステップするために、大きな言語モデルを使うことを提案する。
- 参考スコア(独自算出の注目度): 3.19428095493284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fuzzy string matching remains a key issue when political scientists combine data from different sources. Existing matching methods invariably rely on string distances, such as Levenshtein distance and cosine similarity. As such, they are inherently incapable of matching strings that refer to the same entity with different names such as ''JP Morgan'' and ''Chase Bank'', ''DPRK'' and ''North Korea'', ''Chuck Fleischmann (R)'' and ''Charles Fleischmann (R)''. In this letter, we propose to use large language models to entirely sidestep this problem in an easy and intuitive manner. Extensive experiments show that our proposed methods can improve the state of the art by as much as 39% in terms of average precision while being substantially easier and more intuitive to use by political scientists. Moreover, our results are robust against various temperatures. We further note that enhanced prompting can lead to additional performance improvements.
- Abstract(参考訳): 政治学者が異なる情報源のデータを組み合わせている場合、ファジィ文字列マッチングは依然として重要な問題だ。
既存のマッチング法は、レヴェンシュテイン距離やコサイン類似性のような文字列距離に依存しない。
そのため、「JP Morgan」、「Chase Bank」、「DPRK」、「North Korea」、「Chuck Fleischmann(R)」、「Charles Fleischmann(R)」など、異なる名前の同義語に一致する文字列は本来不可能である。
本稿では,大規模言語モデルを用いて,この問題を完全に横取りし,直感的に解決することを提案する。
大規模な実験により,提案手法は平均精度を最大39%向上し,政治的科学者の使い勝手は極めて容易かつ直感的であることが示唆された。
さらに, 各種温度に対して頑健な結果が得られた。
さらに、プロンプトの強化は、さらなるパフォーマンス向上につながる可能性があることに留意する。
関連論文リスト
- Syntactic Language Change in English and German: Metrics, Parsers, and Convergences [56.47832275431858]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。
私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。
文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-18T11:46:16Z) - Cognitive Dissonance: Why Do Language Model Outputs Disagree with
Internal Representations of Truthfulness? [53.98071556805525]
ニューラルネットワークモデル(LM)は、事実文の真偽を評価するために用いられる。
それらは、文の確率を問い合わせたり、真理の表現を内部で探したりすることができる。
過去の研究によると、これらの2つの手順は時折不一致であり、プローブはLM出力よりも正確である。
この結果、一部の研究者は、LMが非協力的なコミュニケーション意図を「十分」あるいは他の方法でコード化していると結論付けている。
論文 参考訳(メタデータ) (2023-11-27T18:59:14Z) - Quantifying Character Similarity with Vision Transformers [1.5293427903448025]
本研究は,OCR文書の文字置換コストを測定する手法を開発した。
視覚変換器(ViT)の大規模な自己教師型トレーニングと拡張デジタルフォントを採用している。
編集距離マッチングアルゴリズムにおいて、文字表現間の余剰距離を置換コストとして用いることにより、レコードリンクが大幅に改善される。
論文 参考訳(メタデータ) (2023-05-24T03:25:33Z) - Does Manipulating Tokenization Aid Cross-Lingual Transfer? A Study on
POS Tagging for Non-Standardized Languages [18.210880703295253]
3つの異なる家系の7つの言語で事前訓練された言語モデル(PLM)を精査する。
我々は,そのゼロショット性能を,近縁な非標準多様体で解析する。
全体として、ソース内のサブワードに分割される単語の割合とターゲットデータとの類似性が、ターゲットデータ上でのモデル性能の予測に最強であることが判明した。
論文 参考訳(メタデータ) (2023-04-20T08:32:34Z) - Improving Contextual Recognition of Rare Words with an Alternate
Spelling Prediction Model [0.0]
Earnings21データセットに付随するコンテキストバイアスリストをリリースします。
2つの異なる復号アルゴリズムに適用した浅層融合文脈偏差の計算結果を示す。
稀な単語のリコールを34.7%改善するスペル予測モデルを提案する。
論文 参考訳(メタデータ) (2022-09-02T19:30:16Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - pyBART: Evidence-based Syntactic Transformations for IE [52.93947844555369]
pyBARTは、英語のUD木を拡張UDグラフに変換するためのオープンソースのPythonライブラリである。
パターンに基づく関係抽出のシナリオで評価すると、より少ないパターンを必要としながら、より高精細なUDよりも高い抽出スコアが得られる。
論文 参考訳(メタデータ) (2020-05-04T07:38:34Z) - MALTS: Matching After Learning to Stretch [86.84454964051014]
我々はマッチングのための解釈可能な距離メートル法を学習し、それによってかなり高い品質のマッチングが得られる。
フレキシブルな距離測定を学習する能力は、解釈可能で、条件付き平均治療効果の推定に有用である。
論文 参考訳(メタデータ) (2018-11-18T22:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。