論文の概要: Probabilistic Linguistic Knowledge and Token-level Text Augmentation
- arxiv url: http://arxiv.org/abs/2306.16644v1
- Date: Thu, 29 Jun 2023 03:02:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 14:56:26.722435
- Title: Probabilistic Linguistic Knowledge and Token-level Text Augmentation
- Title(参考訳): 確率的言語知識とトークンレベルのテキスト拡張
- Authors: Zhengxiang Wang
- Abstract要約: REDAとREDA$_NG$という2つのテキスト拡張プログラムを開発した。
RedA$_NG$は、事前訓練された$n$-gram言語モデルを利用して、REDAの出力から最も可能性の高い拡張テキストを選択する。
確率論的言語知識の役割は最小限である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper investigates the effectiveness of token-level text augmentation
and the role of probabilistic linguistic knowledge within a
linguistically-motivated evaluation context. Two text augmentation programs,
REDA and REDA$_{NG}$, were developed, both implementing five token-level text
editing operations: Synonym Replacement (SR), Random Swap (RS), Random
Insertion (RI), Random Deletion (RD), and Random Mix (RM). REDA$_{NG}$
leverages pretrained $n$-gram language models to select the most likely
augmented texts from REDA's output. Comprehensive and fine-grained experiments
were conducted on a binary question matching classification task in both
Chinese and English. The results strongly refute the general effectiveness of
the five token-level text augmentation techniques under investigation, whether
applied together or separately, and irrespective of various common
classification model types used, including transformers. Furthermore, the role
of probabilistic linguistic knowledge is found to be minimal.
- Abstract(参考訳): 本稿では,トークンレベルのテキスト強化の有効性と,言語的に動機付けられた評価文脈における確率的言語知識の役割について検討する。
REDAとREDA$_{NG}$という2つのテキスト拡張プログラムが開発され、どちらもトークンレベルのテキスト編集操作であるSynonym Replacement (SR)、Random Swap (RS)、Random Insertion (RI)、Random Deletion (RD)、Random Mix (RM)を実装した。
REDA$_{NG}$は、事前訓練された$n$-gram言語モデルを利用して、REDAの出力から最も可能性の高い拡張テキストを選択する。
中国語と英語の2つの質問マッチング分類タスクについて、包括的およびきめ細かい実験を行った。
その結果,5種類のトークンレベルのテキスト増補手法の汎用的有効性は,これらを併用するか,個別に適用するかにかかわらず強く否定され,トランスフォーマーを含む多種多様な共通分類モデルが適用された。
さらに,確率的言語知識の役割は最小限であることが判明した。
関連論文リスト
- Successor Features for Efficient Multisubject Controlled Text Generation [48.37713738712319]
本稿では,後継機能 (SF) と言語モデル修正の2つの基本概念を基礎とするSF-GENを紹介する。
SF-GENはこの2つをシームレスに統合し、LCMのパラメータを変更することなくテキスト生成の動的ステアリングを可能にする。
我々の知る限り、本研究はテキスト生成における後継機能の最初の応用である。
論文 参考訳(メタデータ) (2023-11-03T00:17:08Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Random Text Perturbations Work, but not Always [0.0]
中国語と英語の両方のバイナリテキストマッチング分類タスクについて3つの実験を行った。
この拡張は3つのニューラルネットワーク分類モデルの試験セット性能に負と正の両方の効果をもたらすことが判明した。
論文 参考訳(メタデータ) (2022-09-02T03:03:51Z) - On Decoding Strategies for Neural Text Generators [73.48162198041884]
言語生成タスクと復号化戦略の相互作用について検討する。
生成したテキストの属性の変化をデコード戦略とタスクの両方の関数として測定する。
以上の結果から,これまで観察された結果と意外な結果の両方が明らかとなった。
論文 参考訳(メタデータ) (2022-03-29T16:25:30Z) - Linguistic Knowledge in Data Augmentation for Natural Language
Processing: An Example on Chinese Question Matching [0.0]
2つのDAプログラムは5つの簡単なテキスト編集操作によって拡張テキストを生成する。
1つはn-gram言語モデルで拡張され、余分な言語知識と融合する。
強化された訓練セットの両タイプで訓練されたモデルは、関連する未拡張セットで直接訓練されたモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-11-29T17:07:49Z) - To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-18T10:52:48Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - Text Complexity Classification Based on Linguistic Information:
Application to Intelligent Tutoring of ESL [0.0]
本研究の目的は、英語を第二言語(ESL)学習者として教える文脈の中で、テキストの複雑さを識別できる分類器を構築することである。
ESLの専門家によって既に3つの難易度に分類されていた6171テキストのコーパスを用いて、5つの機械学習アルゴリズムを用いて異なる実験を行った。
その結果, 言語学的特徴は, 総合的な分類性能に優れていた。
論文 参考訳(メタデータ) (2020-01-07T02:42:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。