論文の概要: Clustering of Spell Variations for Proper Nouns Transliterated from the
other languages
- arxiv url: http://arxiv.org/abs/2310.07962v1
- Date: Thu, 12 Oct 2023 00:57:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 13:23:47.521942
- Title: Clustering of Spell Variations for Proper Nouns Transliterated from the
other languages
- Title(参考訳): 他の言語から翻訳された固有名詞のスペル変化のクラスタリング
- Authors: Prathamesh Pawar
- Abstract要約: インド語由来の固有名詞の翻訳は複雑である。
ML手法と数学的類似性方程式を用いて、適切な名詞に対してこれらの綴りのバリエーションをクラスタリングする手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the prominent problems with processing and operating on text data is
the non uniformity of it. Due to the change in the dialects and languages, the
caliber of translation is low. This creates a unique problem while using NLP in
text data; which is the spell variation arising from the inconsistent
translations and transliterations. This problem can also be further aggravated
by the human error arising from the various ways to write a Proper Noun from an
Indian language into its English equivalent. Translating proper nouns
originating from Indian languages can be complicated as some proper nouns are
also used as common nouns which might be taken literally. Applications of NLP
that require addresses, names and other proper nouns face this problem
frequently. We propose a method to cluster these spell variations for proper
nouns using ML techniques and mathematical similarity equations. We aimed to
use Affinity Propagation to determine relative similarity between the tokens.
The results are augmented by filtering the token-variation pair by a similarity
threshold. We were able to reduce the spell variations by a considerable
amount. This application can significantly reduce the amount of human
annotation efforts needed for data cleansing and formatting.
- Abstract(参考訳): テキストデータの処理と操作における顕著な問題のひとつは、その非一様性である。
方言や言語の変化により、翻訳の口径は低い。
これは、テキストデータでNLPを使用する際に固有の問題を引き起こす。
この問題は、インドの言語から英語の同等語にプロパー名詞を書く様々な方法から生じるヒューマンエラーによってさらに悪化する可能性がある。
インド語起源の固有名詞の翻訳は、文字通りに取られるかもしれない共通の名詞としても用いられるため、複雑である。
住所、名前、その他の固有名詞を必要とするNLPの応用は、この問題に頻繁に直面する。
ML手法と数学的類似性方程式を用いて、適切な名詞に対してこれらの綴りのバリエーションをクラスタリングする手法を提案する。
トークン間の相対的類似性を決定するために,アフィニティ伝播を用いた。
トークン変量ペアを類似度閾値でフィルタすることにより、結果を拡張する。
私たちは呪文のバリエーションを相当に減らすことができた。
このアプリケーションは、データのクリーニングとフォーマッティングに必要な人間のアノテーションの労力を大幅に削減することができる。
関連論文リスト
- Swa Bhasha: Message-Based Singlish to Sinhala Transliteration [0.0]
本研究は,翻訳の複雑さを減らし,Singlish言語の単語レベルでの文字化に着目した。
収集したデータはすべてのシンハラ文字で分析され、関連するシングリッシュパターンが生成される。
「スワバシャ」の音訳システムは、シングリッシュ語からシンハラ語へのテキスト化を行いながら、シンハラ人の体験を高める能力を持っている。
論文 参考訳(メタデータ) (2024-04-20T11:10:37Z) - Beqi: Revitalize the Senegalese Wolof Language with a Robust Spelling
Corrector [0.40611352512781856]
特にアフリカの言語は依然として遅れており、自動処理ツールがない。
合成データを生成することにより,データ不足に関連する制約に対処する方法を提案する。
We present sequence-to-sequence model using Deep Learning for spelling correct in Wolof。
論文 参考訳(メタデータ) (2023-05-15T10:28:36Z) - DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。
我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文 参考訳(メタデータ) (2022-10-13T13:04:16Z) - ngram-OAXE: Phrase-Based Order-Agnostic Cross Entropy for
Non-Autoregressive Machine Translation [51.06378042344563]
オートレグレッシブ翻訳(NAT)におけるマルチモーダリティの効果を改善できる新しい訓練用Oaxe損失が証明された
我々は、ngram 句間の並べ替えのみを許し、句内の単語順序の厳密な一致をいまだ必要とすることで oaxe を拡張する。
さらに分析したところ、ngram-oaxeは実際にngram句の翻訳を改善し、文構造をより良くモデル化してより流動的な翻訳を生成することがわかった。
論文 参考訳(メタデータ) (2022-10-08T11:39:15Z) - Reduce Indonesian Vocabularies with an Indonesian Sub-word Separator [0.0]
本稿では,インドネシア語をペア言語として用いたニューラルネットワーク翻訳システム(NMT)のユニークな単語問題に対処する戦略を提案する。
提案手法では,単語を語根に変換し,接尾辞を伴って意味や文脈を保持するために規則に基づく手法を用いる。
語彙の数は最大で57%まで減少し、英語からインドネシア語への翻訳では、この手法を使用しない同様のNMTシステムよりも最大5 BLEUポイントの改善が提供される。
論文 参考訳(メタデータ) (2022-07-01T17:09:53Z) - NFLAT: Non-Flat-Lattice Transformer for Chinese Named Entity Recognition [39.308634515653914]
我々は,計算コストとメモリコストを効果的に削減する新しい語彙拡張手法であるInterFormerを提唱する。
FLATと比較して「単語文字」と「単語」の不要な注意計算を減らす
これにより、メモリ使用量が約50%削減され、ネットワークトレーニングのためにより広範なレキシコンやより高いバッチを使用することができる。
論文 参考訳(メタデータ) (2022-05-12T01:55:37Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - NeuSpell: A Neural Spelling Correction Toolkit [88.79419580807519]
NeuSpellは、英語でスペル修正を行うためのオープンソースのツールキットである。
10の異なるモデルで構成され、複数のソースからのミススペルをベンチマークする。
我々は、逆エンジニアリング分離ミススペルによって合成的に構築された文脈におけるスペルエラーを用いてニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2020-10-21T15:53:29Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。