論文の概要: Misspellings in Natural Language Processing: A survey
- arxiv url: http://arxiv.org/abs/2501.16836v1
- Date: Tue, 28 Jan 2025 10:26:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:42:54.779071
- Title: Misspellings in Natural Language Processing: A survey
- Title(参考訳): 自然言語処理におけるミススペル:調査
- Authors: Gianluca Sperduti, Alejandro Moreo,
- Abstract要約: デジタル通信では ミススペルがユビキタスになりました
我々は科学的な問題としてミススペルの歴史を再構築する。
NLPにおけるミススペル問題に対処するための最新の進歩について論じる。
- 参考スコア(独自算出の注目度): 52.419589623702336
- License:
- Abstract: This survey provides an overview of the challenges of misspellings in natural language processing (NLP). While often unintentional, misspellings have become ubiquitous in digital communication, especially with the proliferation of Web 2.0, user-generated content, and informal text mediums such as social media, blogs, and forums. Even if humans can generally interpret misspelled text, NLP models frequently struggle to handle it: this causes a decline in performance in common tasks like text classification and machine translation. In this paper, we reconstruct a history of misspellings as a scientific problem. We then discuss the latest advancements to address the challenge of misspellings in NLP. Main strategies to mitigate the effect of misspellings include data augmentation, double step, character-order agnostic, and tuple-based methods, among others. This survey also examines dedicated data challenges and competitions to spur progress in the field. Critical safety and ethical concerns are also examined, for example, the voluntary use of misspellings to inject malicious messages and hate speech on social networks. Furthermore, the survey explores psycholinguistic perspectives on how humans process misspellings, potentially informing innovative computational techniques for text normalization and representation. Finally, the misspelling-related challenges and opportunities associated with modern large language models are also analyzed, including benchmarks, datasets, and performances of the most prominent language models against misspellings. This survey aims to be an exhaustive resource for researchers seeking to mitigate the impact of misspellings in the rapidly evolving landscape of NLP.
- Abstract(参考訳): 本調査では,自然言語処理(NLP)におけるミススペルの課題について概説する。
特にウェブ2.0の普及、ユーザー生成コンテンツ、ソーシャルメディア、ブログ、フォーラムなどの非公式なテキストメディアなど、デジタルコミュニケーションにおいて、しばしば意図しないミススペルが普及している。
人間は一般的にミススペルされたテキストを解釈できるが、NLPモデルはそれを扱うのにしばしば苦労する:これはテキスト分類や機械翻訳といった一般的なタスクでパフォーマンスが低下する。
本稿では,ミススペルの歴史を科学的問題として再構築する。
次に,NLPにおけるミススペル問題に対処するための最新の進歩について論じる。
ミススペルの影響を軽減する主な戦略は、データ強化、ダブルステップ、文字順非依存、タプルベースのメソッドなどである。
この調査では、この分野の進展を促進するために、専用のデータ課題やコンペも検討している。
例えば、悪意のあるメッセージやヘイトスピーチをソーシャルネットワークに注入するために、ミススペルを自発的に使用することなどである。
さらに、この調査は、人間がいかにミススペルを処理し、テキストの正規化と表現のための革新的な計算技術を示すかについての精神言語学的視点を探求する。
最後に、現代の大規模言語モデルに関連するミススペルに関する課題と機会も分析され、ベンチマーク、データセット、ミススペルに対する最も著名な言語モデルのパフォーマンスなどが含まれている。
この調査は、急速に発展するNLPのランドスケープにおけるミススペルの影響を緩和しようとする研究者にとって、徹底的なリソースとなることを目的としている。
関連論文リスト
- Harnessing the Intrinsic Knowledge of Pretrained Language Models for Challenging Text Classification Settings [5.257719744958367]
この論文は、事前学習された言語モデル(PLM)の本質的な知識を活用することによって、テキスト分類における3つの挑戦的な設定を探求する。
本研究では, PLMの文脈表現に基づく特徴量を利用したモデルを構築し, 人間の精度に匹敵する, あるいは超越する性能を実現する。
最後に、実効的な実演を選択することで、大規模言語モデルの文脈内学習プロンプトに対する感受性に取り組む。
論文 参考訳(メタデータ) (2024-08-28T09:07:30Z) - Measuring the Effect of Influential Messages on Varying Personas [67.1149173905004]
我々は、ニュースメッセージを見る際にペルソナが持つ可能性のある応答を推定するために、ニュースメディア向けのペルソナに対するレスポンス予測という新しいタスクを提示する。
提案課題は,モデルにパーソナライズを導入するだけでなく,各応答の感情極性と強度も予測する。
これにより、ペルソナの精神状態に関するより正確で包括的な推測が可能になる。
論文 参考訳(メタデータ) (2023-05-25T21:01:00Z) - Out-of-Distribution Generalization in Text Classification: Past,
Present, and Future [30.581612475530974]
自然言語処理(NLP)における機械学習(ML)システムは、アウト・オブ・ディストリビューション(OOD)データへの一般化において重大な課題に直面している。
このことは、NLPモデルの堅牢性とその高い精度に関する重要な疑問を提起する。
本稿では,近年の進歩,方法,評価について概観する。
論文 参考訳(メタデータ) (2023-05-23T14:26:11Z) - A Survey on Zero Pronoun Translation [69.09774294082965]
ゼロ代名詞(ZP)はプロドロップ言語では省略されることが多いが、非プロドロップ言語ではリコールされるべきである。
本研究は, 神経革命後のゼロ代名詞翻訳(ZPT)における主要な研究について述べる。
1) ZPTは大規模言語モデルの発展傾向と一致している; 2) データの制限は言語やドメインの学習バイアスを引き起こす; 3) 性能改善は単一のベンチマークで報告されることが多いが、高度な手法はまだ実世界の利用には程遠い。
論文 参考訳(メタデータ) (2023-05-17T13:19:01Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - Language Model Behavior: A Comprehensive Survey [5.663056267168211]
本稿では,タスク固有の微調整前における英語モデル行動に関する最近の250以上の研究について論じる。
モデルが数十億のパラメータにスケールするにつれて、生成テキストの品質は劇的に向上するが、モデルはまだ、非現実的な応答、常識的エラー、暗記されたテキスト、社会的偏見の傾向にある。
論文 参考訳(メタデータ) (2023-03-20T23:54:26Z) - Grammatical Error Correction: A Survey of the State of the Art [15.174807142080187]
文法的誤り訂正(英: Grammatical Error Correction, GEC)は、テキスト中のエラーを自動的に検出し、修正するタスクである。
この分野は過去10年間で大きな進歩を遂げており、一部は5つの共有タスクによって動機付けられている。
論文 参考訳(メタデータ) (2022-11-09T19:34:38Z) - Forecasting Future World Events with Neural Networks [68.43460909545063]
Autocastは数千の予測質問と付随するニュースコーパスを含むデータセットである。
ニュースコーパスは日付によって整理され、人間が過去の予測を行った条件を正確にシミュレートすることができる。
予測タスクで言語モデルをテストし、パフォーマンスが人間専門家のベースラインよりはるかに低いことを確認します。
論文 参考訳(メタデータ) (2022-06-30T17:59:14Z) - A Prompt Array Keeps the Bias Away: Debiasing Vision-Language Models
with Adversarial Learning [55.96577490779591]
視覚言語モデルは社会的バイアスやステレオタイプを符号化することができる。
これらのマルチモーダル害の測定と緩和には課題がある。
バイアス尺度を調査し,画像テキスト表現にランキング指標を適用した。
論文 参考訳(メタデータ) (2022-03-22T17:59:04Z) - Societal Biases in Language Generation: Progress and Challenges [43.06301135908934]
言語生成は、直接ユーザインタラクションとデコード技術の構造に関して、独自の課題を提示する。
本研究では, 言語生成における社会的バイアスに関する調査を行い, 技術がバイアスにどのように貢献するか, バイアス分析と緩和への進展に焦点をあてる。
復号化技術によるバイアスの研究の欠如により、これらの手法の効果を定量化するための実験も行なっている。
論文 参考訳(メタデータ) (2021-05-10T00:17:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。