論文の概要: On the Robustness of Text Vectorizers
- arxiv url: http://arxiv.org/abs/2303.07203v2
- Date: Mon, 12 Jun 2023 12:55:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 00:51:10.452027
- Title: On the Robustness of Text Vectorizers
- Title(参考訳): テキストベクトルのロバスト性について
- Authors: R\'emi Catellier, Samuel Vaiter, Damien Garreau
- Abstract要約: 自然言語処理では、モデルは通常第一の埋め込み層を含み、トークンの列をベクトル表現に変換する。
連続的な入力の変化に対する堅牢性はよく理解されているが、離散的な変化を考慮すると、状況は明確ではない。
我々の研究は、連結、TF-IDF、段落ベクトル(doc2vec)のような一般的な埋め込みスキームがハミング距離に関してH"older"やLipschitzの感覚において堅牢性を示すことを正式に証明している。
- 参考スコア(独自算出の注目度): 9.904746542801838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A fundamental issue in machine learning is the robustness of the model with
respect to changes in the input. In natural language processing, models
typically contain a first embedding layer, transforming a sequence of tokens
into vector representations. While the robustness with respect to changes of
continuous inputs is well-understood, the situation is less clear when
considering discrete changes, for instance replacing a word by another in an
input sentence. Our work formally proves that popular embedding schemes, such
as concatenation, TF-IDF, and Paragraph Vector (a.k.a. doc2vec), exhibit
robustness in the H\"older or Lipschitz sense with respect to the Hamming
distance. We provide quantitative bounds for these schemes and demonstrate how
the constants involved are affected by the length of the document. These
findings are exemplified through a series of numerical examples.
- Abstract(参考訳): 機械学習の根本的な問題は、入力の変化に関してモデルの堅牢性である。
自然言語処理では、モデルは通常第一の埋め込み層を含み、トークンの列をベクトル表現に変換する。
連続入力の変化に対するロバスト性はよく理解されているが、例えば入力文で単語を別の単語に置き換えるなど、離散的な変化を考える場合の状況は明確ではない。
我々の研究は、連結、TF-IDF、パラグラフベクトル(別名 doc2vec)のような一般的な埋め込みスキームがハミング距離に関してH\"older あるいは Lipschitz の感覚において堅牢性を示すことを正式に証明している。
これらのスキームの定量的境界を提供し,関連する定数が文書の長さによってどのように影響を受けるかを示す。
これらの発見は一連の数値例を通して例示される。
関連論文リスト
- Unsupervised Representation Learning from Sparse Transformation Analysis [79.94858534887801]
本稿では,潜在変数のスパース成分への変換を分解し,シーケンスデータから表現を学習することを提案する。
入力データは、まず潜伏活性化の分布として符号化され、その後確率フローモデルを用いて変換される。
論文 参考訳(メタデータ) (2024-10-07T23:53:25Z) - Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
テキストから音声合成(TTS)のための新しい連続値トークンに基づく言語モデリング手法であるMELLEを提案する。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - On Adversarial Examples for Text Classification by Perturbing Latent Representations [0.0]
テキスト分類における逆例に対して,ディープラーニングは脆弱であることを示す。
この弱点は、ディープラーニングがそれほど堅牢ではないことを示している。
我々は,テキスト分類器の頑健性を測定するフレームワークを,分類器の勾配を用いて構築する。
論文 参考訳(メタデータ) (2024-05-06T18:45:18Z) - ReAGent: A Model-agnostic Feature Attribution Method for Generative
Language Models [4.015810081063028]
モデル予測に対する全ての入力特徴の重要性を導出するために、FA(Feature Attribution Method)が使用される。
テキスト生成においてデコーダのみのモデルにこれらのFAを使うことが忠実かどうかは不明である。
Recursive Attribution Generator (ReAGent) と呼ばれるジェネレーティブ LM のためのモデル非依存型 FA を提案する。
論文 参考訳(メタデータ) (2024-02-01T17:25:51Z) - LEA: Improving Sentence Similarity Robustness to Typos Using Lexical
Attention Bias [3.48350302245205]
タイプミスや略語などのテキストノイズは、ほとんどの下流タスクでバニラ変換器をペナルティ化する。
これは複数のドメインにおける基本的タスクである文類似性にも当てはまる。
我々は,新しいLExical-aware Attentionモジュールでクロスエンコーダを組み込むことにより,テキストノイズに対処することを提案する。
論文 参考訳(メタデータ) (2023-07-06T10:53:50Z) - Compositional Generalization without Trees using Multiset Tagging and
Latent Permutations [121.37328648951993]
まず、各入力トークンに複数の出力トークンをタグ付けします。
次に、新しいパラメータ化法と置換予測法を用いて、トークンを出力シーケンスに配置する。
我々のモデルは、事前訓練されたセq2seqモデルと、現実的なセマンティック解析タスクに関する先行研究より優れている。
論文 参考訳(メタデータ) (2023-05-26T14:09:35Z) - Sentence Embedding Leaks More Information than You Expect: Generative
Embedding Inversion Attack to Recover the Whole Sentence [37.63047048491312]
本稿では,文の埋め込みのみに基づいて入力シーケンスを再構築することを目的とした,ジェネレーティブな埋め込み反転攻撃(GEIA)を提案する。
言語モデルへのブラックボックスアクセスを考えると、文の埋め込みを初期トークンの表現として扱い、列を直接デコードするために強力なデコーダモデルを訓練または微調整する。
論文 参考訳(メタデータ) (2023-05-04T17:31:41Z) - Same or Different? Diff-Vectors for Authorship Analysis [78.83284164605473]
古典的な著作物分析において、特徴ベクトルは文書を表し、特徴の値は文書中の特徴の相対周波数(関数の増大)を表し、クラスラベルは文書の著者を表す。
筆者らの実験は共著者検証,著者検証,クローズドセットの著者帰属に取り組んでおり,DVは自然に第1の問題を解くのに向いているが,第2と第3の問題を解くための2つの新しい方法も提供している。
論文 参考訳(メタデータ) (2023-01-24T08:48:12Z) - Bypass Network for Semantics Driven Image Paragraph Captioning [12.743882133781602]
Image paragraph paragraphingは、与えられた画像を一連の一貫性のある文で記述することを目的としている。
既存のほとんどの手法は、先行する文からトピックベクトルを動的に推論するトピック遷移を通じてコヒーレンスをモデル化する。
本稿では,先行文のセマンティクスと言語構文を個別にモデル化するバイパスネットワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T00:48:22Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。