論文の概要: Misspelling Semantics In Thai
- arxiv url: http://arxiv.org/abs/2206.09680v1
- Date: Mon, 20 Jun 2022 09:42:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-25 11:58:21.430670
- Title: Misspelling Semantics In Thai
- Title(参考訳): タイ語におけるミススペル意味論
- Authors: Pakawat Nakwijit, Matthew Purver
- Abstract要約: 本稿では,タイ国におけるミススペルの微粒な注釈付きコーパスについて,意図的ミススペルの分析と意味論の可能性について述べる。
ミススペル・アベディング(MAE)とミススペル・セマンティック・トークン(MST)の2つの手法を導入する。
ミススペルによる追加のセマンティクスは、マイクロF1のスコアを0.4-2%まで引き上げるが、視覚的に正常にするミススペルは有害で最適である。
- 参考スコア(独自算出の注目度): 4.43367689170871
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: User-generated content is full of misspellings. Rather than being just random
noise, we hypothesise that many misspellings contain hidden semantics that can
be leveraged for language understanding tasks. This paper presents a
fine-grained annotated corpus of misspelling in Thai, together with an analysis
of misspelling intention and its possible semantics to get a better
understanding of the misspelling patterns observed in the corpus. In addition,
we introduce two approaches to incorporate the semantics of misspelling:
Misspelling Average Embedding (MAE) and Misspelling Semantic Tokens (MST).
Experiments on a sentiment analysis task confirm our overall hypothesis:
additional semantics from misspelling can boost the micro F1 score up to
0.4-2%, while blindly normalising misspelling is harmful and suboptimal.
- Abstract(参考訳): ユーザー生成コンテンツはミススペルでいっぱいです。
単なるランダムノイズではなく、多くのミススペルには言語理解タスクに活用できる隠れた意味論が含まれていると仮定する。
本稿では,タイ国におけるミススペルの微粒化コーパスについて,ミススペルの意図とその意味を解析し,コーパスで観察されるミススペルのパターンをよりよく理解するために提案する。
さらに,ミススペルのセマンティクスを組み込む手法として,ミススペル平均埋め込み (mae) とミススペル意味トークン (mst) を紹介する。
ミススペルリングによる追加的なセマンティクスは、micro f1スコアを0.4-2%まで上昇させるが、盲目的にミススペルを正規化することは有害で最適ではない。
関連論文リスト
- Misspellings in Natural Language Processing: A survey [52.419589623702336]
デジタル通信では ミススペルがユビキタスになりました
我々は科学的な問題としてミススペルの歴史を再構築する。
NLPにおけるミススペル問題に対処するための最新の進歩について論じる。
論文 参考訳(メタデータ) (2025-01-28T10:26:04Z) - STAR Loss: Reducing Semantic Ambiguity in Facial Landmark Detection [80.04000067312428]
本稿では,意味的あいまいさの特性を利用した自己適応型あいまいさ低減(STAR)の損失を提案する。
意味的あいまいさは異方性予測分布をもたらすことが分かり、予測分布を用いて意味的あいまいさを表現する。
また,分布の異常変化とモデルの初期収束を回避できる2種類の固有値制限法を提案する。
論文 参考訳(メタデータ) (2023-06-05T10:33:25Z) - Interpretable Automatic Fine-grained Inconsistency Detection in Text
Summarization [56.94741578760294]
本研究の目的は, 要約中の事実誤りの微粒化を予測し, 微粒化不整合検出の課題を提案することである。
要約における現実的不整合の検査方法に触発され,解析可能な微粒不整合検出モデルであるFinGrainFactを提案する。
論文 参考訳(メタデータ) (2023-05-23T22:11:47Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - Explaining Prediction Uncertainty of Pre-trained Language Models by
Detecting Uncertain Words in Inputs [21.594361495948316]
本稿では,事前校正後の事前学習言語モデルの不確実な予測について,その説明をさらに進める。
我々は2つの摂動に基づくポストホック解釈手法、Leave-one-outとSamping Shapleyを適用し、予測の不確実性の原因となる入力中の単語を同定する。
論文 参考訳(メタデータ) (2022-01-11T02:04:50Z) - Context-aware Stand-alone Neural Spelling Correction [11.643354740136953]
本稿では,事前学習した言語モデルを微調整することにより,ミススペルをシーケンスラベリングタスクとして共同で検出し,修正する,シンプルで強力なソリューションを提案する。
我々の解は、これまでの最先端の結果を12.8%の絶対F0.5スコアで上回っている。
論文 参考訳(メタデータ) (2020-11-12T20:34:49Z) - On the Sentence Embeddings from Pre-trained Language Models [78.45172445684126]
本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。
BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。
本稿では,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
論文 参考訳(メタデータ) (2020-11-02T13:14:57Z) - Punctuation Prediction in Spontaneous Conversations: Can We Mitigate ASR
Errors with Retrofitted Word Embeddings? [33.5428664411426]
ドメイン固有のデータへの埋め込みがASRエラーを緩和することを示す。
我々は,最先端モデルと比較して,句読点の精度が6.2%(疑問点)から9%(期間)に絶対的に向上したことを記録した。
論文 参考訳(メタデータ) (2020-04-13T15:02:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。