論文の概要: LEA: Improving Sentence Similarity Robustness to Typos Using Lexical
Attention Bias
- arxiv url: http://arxiv.org/abs/2307.02912v1
- Date: Thu, 6 Jul 2023 10:53:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 14:14:32.495709
- Title: LEA: Improving Sentence Similarity Robustness to Typos Using Lexical
Attention Bias
- Title(参考訳): lea: 語彙的注意バイアスを用いたタイプミスに対する文類似性の改善
- Authors: Mario Almagro, Emilio Almaz\'an, Diego Ortego, David Jim\'enez
- Abstract要約: タイプミスや略語などのテキストノイズは、ほとんどの下流タスクでバニラ変換器をペナルティ化する。
これは複数のドメインにおける基本的タスクである文類似性にも当てはまる。
我々は,新しいLExical-aware Attentionモジュールでクロスエンコーダを組み込むことにより,テキストノイズに対処することを提案する。
- 参考スコア(独自算出の注目度): 3.48350302245205
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Textual noise, such as typos or abbreviations, is a well-known issue that
penalizes vanilla Transformers for most downstream tasks. We show that this is
also the case for sentence similarity, a fundamental task in multiple domains,
e.g. matching, retrieval or paraphrasing. Sentence similarity can be approached
using cross-encoders, where the two sentences are concatenated in the input
allowing the model to exploit the inter-relations between them. Previous works
addressing the noise issue mainly rely on data augmentation strategies, showing
improved robustness when dealing with corrupted samples that are similar to the
ones used for training. However, all these methods still suffer from the token
distribution shift induced by typos. In this work, we propose to tackle textual
noise by equipping cross-encoders with a novel LExical-aware Attention module
(LEA) that incorporates lexical similarities between words in both sentences.
By using raw text similarities, our approach avoids the tokenization shift
problem obtaining improved robustness. We demonstrate that the attention bias
introduced by LEA helps cross-encoders to tackle complex scenarios with textual
noise, specially in domains with short-text descriptions and limited context.
Experiments using three popular Transformer encoders in five e-commerce
datasets for product matching show that LEA consistently boosts performance
under the presence of noise, while remaining competitive on the original
(clean) splits. We also evaluate our approach in two datasets for textual
entailment and paraphrasing showing that LEA is robust to typos in domains with
longer sentences and more natural context. Additionally, we thoroughly analyze
several design choices in our approach, providing insights about the impact of
the decisions made and fostering future research in cross-encoders dealing with
typos.
- Abstract(参考訳): タイプミスや略語などのテキストノイズは、下流のタスクでバニラトランスフォーマをペナライズする有名な問題である。
これは、複数の領域における基本的なタスクである文類似性(例えば、マッチング、検索、言い換えなど)のケースでもある。
文の類似性はクロスエンコーダを用いてアプローチすることができ、2つの文が入力に連結され、モデルがそれらの間の関係を利用することができる。
ノイズ問題に対処する以前の研究は、主にデータ拡張戦略に依存しており、トレーニングに使用されるものと類似した破損したサンプルを扱う際の堅牢性が向上している。
しかし、これらの手法はすべて依然としてtyposによって引き起こされるトークン分布シフトに苦しむ。
本稿では,両文の単語間の語彙類似性を組み込んだ新しい語彙認識アテンションモジュール(lea)をクロスエンコーダに実装し,テキスト雑音に対処することを提案する。
テキストの類似性を利用してトークン化シフト問題を回避し,ロバスト性を向上させる。
LEAによって導入された注意バイアスは、特に短文記述と限られたコンテキストを持つドメインにおいて、テキストノイズを伴う複雑なシナリオにクロスエンコーダが取り組むのに役立つことを実証する。
製品マッチングのために5つのeコマースデータセットに3つの人気のあるTransformerエンコーダを使用した実験によると、LEAはノイズの存在下でパフォーマンスを継続的に向上する一方で、元の(クリーン)分割に競争力を維持する。
また,本手法を2つのデータセットで評価し,LEAが文の長い領域やより自然な文脈でタイポに頑健であることを示す。
さらに,本手法における設計選択を徹底的に分析し,意思決定の影響について考察し,タイポスを扱うクロスエンコーダの今後の研究を促進する。
関連論文リスト
- BEST-STD: Bidirectional Mamba-Enhanced Speech Tokenization for Spoken Term Detection [8.303512060791736]
スポット項の検出は、フレームレベルの特徴と計算集約的なDTWベースのテンプレートマッチングに依存しているため、しばしば妨げられる。
本稿では,音声を個別の話者に依存しないセマンティックトークンに符号化する手法を提案する。
これにより、テキストベースの検索アルゴリズムによる高速検索が容易になり、語彙外用語を効果的に扱うことができる。
論文 参考訳(メタデータ) (2024-11-21T13:05:18Z) - Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - On the Robustness of Text Vectorizers [9.904746542801838]
自然言語処理では、モデルは通常第一の埋め込み層を含み、トークンの列をベクトル表現に変換する。
連続的な入力の変化に対する堅牢性はよく理解されているが、離散的な変化を考慮すると、状況は明確ではない。
我々の研究は、連結、TF-IDF、段落ベクトル(doc2vec)のような一般的な埋め込みスキームがハミング距離に関してH"older"やLipschitzの感覚において堅牢性を示すことを正式に証明している。
論文 参考訳(メタデータ) (2023-03-09T16:37:37Z) - Non-Linguistic Supervision for Contrastive Learning of Sentence
Embeddings [14.244787327283335]
文エンコーダとしてのTransformerモデルの性能はマルチモーダルなマルチタスク損失のトレーニングによって改善できる。
非言語的データに対する我々のフレームワークの依存は、言語に依存しないので、英語のNLPを超えて広く適用することができる。
論文 参考訳(メタデータ) (2022-09-20T03:01:45Z) - Unsupervised Mismatch Localization in Cross-Modal Sequential Data [5.932046800902776]
我々は、コンテンツミスマッチしたクロスモーダルデータ間の関係を推測できる教師なし学習アルゴリズムを開発した。
本稿では,音声生成過程を階層的に構造化された潜在変数に分解する,ミスマッチ局所化変分自動符号化(ML-VAE)という階層型ベイズディープラーニングモデルを提案する。
実験の結果,ML-VAEは人間のアノテーションを必要とせず,テキストと音声のミスマッチの特定に成功した。
論文 参考訳(メタデータ) (2022-05-05T14:23:27Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Rethinking Positional Encoding in Language Pre-training [111.2320727291926]
絶対的な位置符号化では、位置埋め込みと単語埋め込みに適用される付加操作が混合相関をもたらすことを示す。
我々はtextbfUntied textPositional textbfEncoding (T) を用いた textbfTransformer という新しい位置符号化手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T13:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。