論文の概要: Making Sentence Embeddings Robust to User-Generated Content
- arxiv url: http://arxiv.org/abs/2403.17220v1
- Date: Mon, 25 Mar 2024 21:48:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 19:16:39.659739
- Title: Making Sentence Embeddings Robust to User-Generated Content
- Title(参考訳): ユーザ生成コンテンツにロバストな文を埋め込む
- Authors: Lydia Nishimwe, Benoît Sagot, Rachel Bawden,
- Abstract要約: データへの文埋め込みモデルであるLASERの堅牢性に注目した。
埋め込み空間において、非標準文とその標準文を互いに近接して表現するLASERの能力により、このロバスト性を評価する。
標準データと合成データのみをトレーニングすることにより、RoLASERは2倍と11倍のスコアを達成して、自然データと人工データの両方に対するLASERの堅牢性を大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 20.630120942837564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: NLP models have been known to perform poorly on user-generated content (UGC), mainly because it presents a lot of lexical variations and deviates from the standard texts on which most of these models were trained. In this work, we focus on the robustness of LASER, a sentence embedding model, to UGC data. We evaluate this robustness by LASER's ability to represent non-standard sentences and their standard counterparts close to each other in the embedding space. Inspired by previous works extending LASER to other languages and modalities, we propose RoLASER, a robust English encoder trained using a teacher-student approach to reduce the distances between the representations of standard and UGC sentences. We show that with training only on standard and synthetic UGC-like data, RoLASER significantly improves LASER's robustness to both natural and artificial UGC data by achieving up to 2x and 11x better scores. We also perform a fine-grained analysis on artificial UGC data and find that our model greatly outperforms LASER on its most challenging UGC phenomena such as keyboard typos and social media abbreviations. Evaluation on downstream tasks shows that RoLASER performs comparably to or better than LASER on standard data, while consistently outperforming it on UGC data.
- Abstract(参考訳): NLPモデルはユーザ生成コンテンツ(UGC)の性能が低かったことが知られており、主に多くの語彙的バリエーションを示し、これらのモデルの大半が訓練された標準テキストから逸脱している。
本研究では,UGCデータに対する文埋め込みモデルであるLASERの堅牢性に着目した。
埋め込み空間において、非標準文とその標準文を互いに近接して表現するLASERの能力により、このロバスト性を評価する。
従来の研究によって他の言語やモダリティに拡張されたRoLASERは、標準文とUGC文の表現距離を減らすために教師と学生のアプローチで訓練された頑健な英語エンコーダである。
標準的なUGCライクなデータと合成UGCライクなデータのみをトレーニングすることにより、RoLASERは2倍、11倍のスコアを達成して、自然および人工両方のUGCデータに対するLASERの堅牢性を大幅に向上する。
また,UGCデータの微粒化分析を行い,キーボードタイポやソーシャルメディアの略語など,最も難解なUGC現象において,我々のモデルがLASERを著しく上回っていることを確認した。
下流タスクの評価によると、RoLASERは標準データではLASERと互換性があり、UGCデータでは一貫してパフォーマンスが向上している。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - LBC: Language-Based-Classifier for Out-Of-Variable Generalization [14.033963471962823]
大規模言語モデル(LLM)は、応答生成のような自然言語処理タスクにおいて大きな成功を収めている。
LLMの事前学習された知識により、追加のトレーニングなしでテストに現れる新しい変数を解釈できることがわかった。
本稿では,LBC(Language-Based-Classifier)を提案する。
論文 参考訳(メタデータ) (2024-08-20T15:05:02Z) - Code Needs Comments: Enhancing Code LLMs with Comment Augmentation [91.52444946362547]
本稿では、既存のコードに対するコメントを生成する新しいデータ拡張手法と、自然言語と相関の低いコードデータをフィルタリングするデータフィルタリング戦略を導入する。
我々は3つのコード中心の大規模言語モデルの実験を行い、2つの広く使われているプログラミングスキルベンチマークで一貫した性能向上を観察した。
論文 参考訳(メタデータ) (2024-02-20T13:56:38Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - Generate to Understand for Representation [3.5325087487696463]
GURは、言語モデリングと対照的な学習目標を単一のトレーニングステップで組み合わせた事前トレーニングフレームワークである。
GURはラベル付きトレーニングデータなしで印象的な結果を実現し、ゼロショット設定でリコールベンチマークでレシーバーとして、トレーニング済みのすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-06-14T06:00:18Z) - CORE: A Retrieve-then-Edit Framework for Counterfactual Data Generation [91.16551253297588]
Counterfactual Generation via Retrieval and Editing (CORE) は、トレーニングのための多様な反事実摂動を生成するための検索強化された生成フレームワークである。
COREはまず、学習されたバイエンコーダを用いて、タスク関連未ラベルテキストコーパス上で密集した検索を行う。
COREはこれらを、反ファクト編集のために、数ショットの学習機能を備えた大規模な言語モデルへのプロンプトに組み込む。
論文 参考訳(メタデータ) (2022-10-10T17:45:38Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Unreasonable Effectiveness of Rule-Based Heuristics in Solving Russian
SuperGLUE Tasks [2.6189995284654737]
SuperGLUEのようなリーダーボードは、NLPの活発な開発のための重要なインセンティブと見なされている。
テストデータセットは浅瀬に対して脆弱であることを示す。
最も簡単な説明として)RSGリーダーボードにおけるSOTAモデルのパフォーマンスの大部分は、これらの浅瀬を利用するためである可能性が高い。
論文 参考訳(メタデータ) (2021-05-03T22:19:22Z) - Ranking Creative Language Characteristics in Small Data Scenarios [52.00161818003478]
DirectRankerを適用して、小さなデータでクリエイティブ言語をランク付けするための、新しいディープモデルを提供します。
スパーストレーニングデータを用いた実験により、標準的なニューラルネットワークのランク付け手法の性能は小さなデータセットで崩壊するが、DirectRankerは依然として有効であることがわかった。
論文 参考訳(メタデータ) (2020-10-23T18:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。