論文の概要: An improved Bayesian TRIE based model for SMS text normalization
- arxiv url: http://arxiv.org/abs/2008.01297v2
- Date: Wed, 18 Nov 2020 17:19:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 00:49:38.029981
- Title: An improved Bayesian TRIE based model for SMS text normalization
- Title(参考訳): SMSテキスト正規化のためのベイズTRIEモデルの改良
- Authors: Abhinava Sikdar, Niladri Chatterjee
- Abstract要約: SMSテキストの正規化(テキスト言語として知られる)は10年以上続いている。
HMMに基づく手法よりも高い性能を示した文献では,Trieデータ構造に基づく確率論的手法が提案された。
本稿では,新しいトレーニングアルゴリズムと確率生成手法とともに,既存のTrieモデルに対する構造的変更を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Normalization of SMS text, commonly known as texting language, is being
pursued for more than a decade. A probabilistic approach based on the Trie data
structure was proposed in literature which was found to be better performing
than HMM based approaches proposed earlier in predicting the correct
alternative for an out-of-lexicon word. However, success of the Trie based
approach depends largely on how correctly the underlying probabilities of word
occurrences are estimated. In this work we propose a structural modification to
the existing Trie-based model along with a novel training algorithm and
probability generation scheme. We prove two theorems on statistical properties
of the proposed Trie and use them to claim that is an unbiased and consistent
estimator of the occurrence probabilities of the words. We further fuse our
model into the paradigm of noisy channel based error correction and provide a
heuristic to go beyond a Damerau Levenshtein distance of one. We also run
simulations to support our claims and show superiority of the proposed scheme
over previous works.
- Abstract(参考訳): SMSテキストの正規化(テキスト言語として知られる)は10年以上続いている。
この三重項データ構造に基づく確率論的アプローチは,前述したhmmに基づく手法よりも優れた性能を示すことが判明した文献で提案されている。
しかし、三重項に基づく手法の成功は、単語発生の確率がどの程度正確に推定されるかに大きく依存する。
本研究では,新しいトレーニングアルゴリズムと確率生成手法とともに,既存のTrieモデルの構造的変更を提案する。
提案する三重項の統計的性質に関する2つの定理を証明し、単語の出現確率の偏りのない一貫した推定子であると主張する。
我々はさらに、我々のモデルをノイズチャネルに基づく誤り訂正のパラダイムに融合させ、ダマラウ・レヴェンシュテイン距離を超えるヒューリスティックを提供する。
また,我々の主張を裏付けるシミュレーションを行い,提案手法が従来よりも優れていることを示す。
関連論文リスト
- Source-Free Unsupervised Domain Adaptation with Hypothesis Consolidation
of Prediction Rationale [53.152460508207184]
Source-Free Unsupervised Domain Adaptation (SFUDA)は、モデルがターゲットのドメインラベルやソースドメインデータにアクセスせずに新しいドメインに適応する必要がある、という課題である。
本稿では,各サンプルについて複数の予測仮説を考察し,各仮説の背景にある理論的根拠について考察する。
最適性能を達成するために,モデル事前適応,仮説統合,半教師付き学習という3段階の適応プロセスを提案する。
論文 参考訳(メタデータ) (2024-02-02T05:53:22Z) - Calibrating Neural Simulation-Based Inference with Differentiable
Coverage Probability [50.44439018155837]
ニューラルモデルのトレーニング目的に直接キャリブレーション項を含めることを提案する。
古典的なキャリブレーション誤差の定式化を緩和することにより、エンドツーエンドのバックプロパゲーションを可能にする。
既存の計算パイプラインに直接適用でき、信頼性の高いブラックボックス後部推論が可能である。
論文 参考訳(メタデータ) (2023-10-20T10:20:45Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - Variational Inference with Coverage Guarantees in Simulation-Based Inference [18.818573945984873]
コンフォーマル化補正ニューラル変分推論(CANVI)を提案する。
CANVIは各候補に基づいて共形予測器を構築し、予測効率と呼ばれる計量を用いて予測器を比較し、最も効率的な予測器を返す。
我々は,CANVIが生成する領域の予測効率の低い境界を証明し,その近似に基づいて,後部近似の品質と予測領域の予測効率の関係について検討する。
論文 参考訳(メタデータ) (2023-05-23T17:24:04Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。