論文の概要: Can Pretrained Language Models Derive Correct Semantics from Corrupt
Subwords under Noise?
- arxiv url: http://arxiv.org/abs/2306.15268v1
- Date: Tue, 27 Jun 2023 07:51:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 14:21:03.427867
- Title: Can Pretrained Language Models Derive Correct Semantics from Corrupt
Subwords under Noise?
- Title(参考訳): 事前学習された言語モデルは、ノイズ下の腐敗したサブワードから正しい意味を導き出せるか?
- Authors: Xinzhe Li, Ming Liu, Shang Gao
- Abstract要約: 本研究では, PLMの騒音による破壊的セグメンテーションに対するロバスト性を評価する。
ノイズおよび評価プロトコル下でのセグメンテーション腐敗の体系的分類を提供する。
実験結果から,音が全く異なるサブワード,小さなサブワードフラグメント,あるいは多数のサブワードを導入した場合,PLMは単語の意味を正確に計算できないことが示唆された。
- 参考スコア(独自算出の注目度): 9.380410177526425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For Pretrained Language Models (PLMs), their susceptibility to noise has
recently been linked to subword segmentation. However, it is unclear which
aspects of segmentation affect their understanding. This study assesses the
robustness of PLMs against various disrupted segmentation caused by noise. An
evaluation framework for subword segmentation, named Contrastive Lexical
Semantic (CoLeS) probe, is proposed. It provides a systematic categorization of
segmentation corruption under noise and evaluation protocols by generating
contrastive datasets with canonical-noisy word pairs. Experimental results
indicate that PLMs are unable to accurately compute word meanings if the noise
introduces completely different subwords, small subword fragments, or a large
number of additional subwords, particularly when they are inserted within other
subwords.
- Abstract(参考訳): 事前学習された言語モデル(plm)では、ノイズに対する感受性は、最近サブワードセグメンテーションと関連づけられている。
しかし, セグメンテーションのどの側面が理解に影響を及ぼすかは不明である。
本研究では,騒音による各種破壊セグメントに対するplmのロバスト性を評価する。
Contrastive Lexical Semantic (CoLeS) probe と呼ばれるサブワードセグメンテーションの評価フレームワークを提案する。
ノイズや評価プロトコルの下でのセグメンテーション破壊の体系的な分類を提供し、標準語対のコントラストデータセットを生成する。
実験の結果,音が全く異なるサブワード,小さなサブワードフラグメント,あるいは多数のサブワード,特に他のサブワードに挿入された場合,PLMは単語の意味を正確に計算できないことがわかった。
関連論文リスト
- Semantics or spelling? Probing contextual word embeddings with orthographic noise [4.622165486890317]
PLMの隠蔽状態にどのような情報がエンコードされているのかは、正確には分かっていない。
驚いたことに、人気のあるPLMによって生成されるCWEは、入力データのノイズに非常に敏感である。
このことは、CWEが単語レベルの意味とは無関係な情報をキャプチャし、入力データの自明な修正によって操作できることを示唆している。
論文 参考訳(メタデータ) (2024-08-08T02:07:25Z) - Lexically Grounded Subword Segmentation [0.0]
トークン化とサブワードセグメンテーションの3つの革新を提示する。
まず,Morfessorを用いた教師なし形態素解析を事前学習に用いることを提案する。
第二に、単語埋め込み空間に接地したサブワード埋め込みを得る方法を提案する。
第3に,単語ビッグラムモデルに基づく効率的なセグメンテーションアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-19T13:48:19Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Enhancing Sindhi Word Segmentation using Subword Representation Learning and Position-aware Self-attention [19.520840812910357]
シンディー語のセグメンテーションは、宇宙の欠落と挿入の問題のために難しい課題である。
既存のシンディー語のセグメンテーション手法は手作りの機能の設計と組み合わせに依存している。
本稿では,単語分割をシーケンスラベリングタスクとして扱うサブワードガイド型ニューラルワードセグメンタ(SGNWS)を提案する。
論文 参考訳(メタデータ) (2020-12-30T08:31:31Z) - Improving Chinese Segmentation-free Word Embedding With Unsupervised
Association Measure [3.9435648520559177]
時間情報とポイントワイド関連性(PATI)という,新しい教師なしの関連尺度を通じてn-gramの語彙を収集することにより,セグメンテーションフリーな単語埋め込みモデルを提案する
提案手法では, コーパスからより潜時的な情報を利用して, 中国語テキストなどの未分類言語データに, より強い凝集度を持つn-gramを埋め込み, より有効なn-gramを収集できる。
論文 参考訳(メタデータ) (2020-07-05T13:55:19Z) - Whole-Word Segmental Speech Recognition with Acoustic Word Embeddings [28.04666950237383]
本研究では,全単語(音響対単語)音声認識のためのセグメントモデルについて検討する。
本稿では,エンドツーエンドの単語セグメントモデルに対する効率的なアプローチについて述べる。
音響セグメント表現の事前学習により,単語誤り率を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2020-07-01T02:22:09Z) - DenoiSeg: Joint Denoising and Segmentation [75.91760529986958]
我々は,いくつかの注釈付き基底真理セグメンテーションでエンドツーエンドに学習できる新しい手法であるDenoySegを提案する。
我々は、ノイズの多い画像だけで訓練できる自己教師付き遮音方式であるNoss2Voidを拡張して、密度の高い3クラスセグメンテーションを予測する。
論文 参考訳(メタデータ) (2020-05-06T17:42:54Z) - Learning Interpretable and Discrete Representations with Adversarial
Training for Unsupervised Text Classification [87.28408260725138]
TIGANは、テキストを離散コードと連続ノイズを含む2つの非絡み合った表現にエンコードすることを学ぶ。
抽出したトピックの単語は,TIGANが一貫性と高度に解釈可能なトピックを学習していることを示している。
論文 参考訳(メタデータ) (2020-04-28T02:53:59Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。