論文の概要: Humpty Dumpty: Controlling Word Meanings via Corpus Poisoning
- arxiv url: http://arxiv.org/abs/2001.04935v1
- Date: Tue, 14 Jan 2020 17:48:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 11:48:56.855203
- Title: Humpty Dumpty: Controlling Word Meanings via Corpus Poisoning
- Title(参考訳): humpty dumpty:コーパス中毒による単語の意味の制御
- Authors: Roei Schuster, Tal Schuster, Yoav Meri, Vitaly Shmatikov
- Abstract要約: 埋め込み空間における単語の位置を変更することで、攻撃者が新しい単語や既存の単語の「意味」を制御できることが示される。
埋め込みに対する攻撃は、さまざまな下流タスクに影響を与える可能性がある。
- 参考スコア(独自算出の注目度): 29.181547214915238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word embeddings, i.e., low-dimensional vector representations such as GloVe
and SGNS, encode word "meaning" in the sense that distances between words'
vectors correspond to their semantic proximity. This enables transfer learning
of semantics for a variety of natural language processing tasks.
Word embeddings are typically trained on large public corpora such as
Wikipedia or Twitter. We demonstrate that an attacker who can modify the corpus
on which the embedding is trained can control the "meaning" of new and existing
words by changing their locations in the embedding space. We develop an
explicit expression over corpus features that serves as a proxy for distance
between words and establish a causative relationship between its values and
embedding distances. We then show how to use this relationship for two
adversarial objectives: (1) make a word a top-ranked neighbor of another word,
and (2) move a word from one semantic cluster to another.
An attack on the embedding can affect diverse downstream tasks, demonstrating
for the first time the power of data poisoning in transfer learning scenarios.
We use this attack to manipulate query expansion in information retrieval
systems such as resume search, make certain names more or less visible to named
entity recognition models, and cause new words to be translated to a particular
target word regardless of the language. Finally, we show how the attacker can
generate linguistically likely corpus modifications, thus fooling defenses that
attempt to filter implausible sentences from the corpus using a language model.
- Abstract(参考訳): 単語埋め込み、すなわちGloVeやSGNSのような低次元ベクトル表現は、単語のベクトル間の距離がその意味的近接性に対応するという意味で「意味」を符号化する。
これにより、自然言語処理タスクのセマンティクスの伝達学習が可能になる。
単語埋め込みは通常、wikipediaやtwitterのような大きな公開コーパスで訓練される。
組込みが訓練されたコーパスを修正できる攻撃者は、組込み空間における位置を変更することで、新しい単語や既存の単語の「意味」を制御できることを実証する。
単語間の距離のプロキシとして機能するコーパス特徴の明示的な表現を開発し,その値と埋め込み距離との因果関係を確立する。
次に、この関係を、(1)単語を他の単語の上位の隣人とし、(2)単語をある意味クラスタから別の意味クラスタへ移動させるという2つの目的のために使う方法を示す。
組み込みへの攻撃は、さまざまな下流タスクに影響を与え、転送学習シナリオにおけるデータ中毒のパワーを初めて実証する。
この攻撃は、履歴検索などの情報検索システムにおけるクエリ拡張を操作し、名前付きエンティティ認識モデルに対して、特定の名前の可視性を高め、言語に関係なく、新しい単語を特定のターゲット単語に翻訳させる。
最後に,攻撃者が言語的に考えられるコーパス修正を生成する方法を示し,言語モデルを用いてコーパスから読み得ない文をフィルタリングしようとする防御を騙す。
関連論文リスト
- Can Word Sense Distribution Detect Semantic Changes of Words? [35.17635565325166]
単語感覚分布は、英語、ドイツ語、スウェーデン語、ラテン語の単語の意味変化を正確に予測するために使用できることを示す。
SemEval 2020 Task 1のデータセットを用いた実験結果から,単語の意味的変化を正確に予測できることがわかった。
論文 参考訳(メタデータ) (2023-10-16T13:41:27Z) - Unsupervised Semantic Variation Prediction using the Distribution of
Sibling Embeddings [17.803726860514193]
単語の意味的変化の検出は,様々なNLPアプリケーションにおいて重要な課題である。
意味表現だけではそのような意味的バリエーションを正確に捉えることはできないと我々は主張する。
対象単語の文脈的埋め込みのコホート全体を利用する手法を提案する。
論文 参考訳(メタデータ) (2023-05-15T13:58:21Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - Embodying Pre-Trained Word Embeddings Through Robot Actions [9.048164930020404]
多語語を含む様々な言語表現に適切に対応することは、ロボットにとって重要な能力です。
これまでの研究で、ロボットは事前訓練された単語埋め込みを用いることで、アクション記述ペアデータセットに含まれていない単語を使用できることが示されている。
ロボットの感覚運動体験を用いて,事前学習された単語埋め込みを具体化したものに変換する。
論文 参考訳(メタデータ) (2021-04-17T12:04:49Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Adversarial Semantic Collisions [129.55896108684433]
意味的衝突:意味論的に無関係だが、NLPモデルにより類似と判断されるテキストについて検討する。
我々は,意味的衝突を生成するための勾配に基づくアプローチを開発した。
パープレキシティに基づくフィルタリングを避けるために,意味的衝突を生成する方法を示す。
論文 参考訳(メタデータ) (2020-11-09T20:42:01Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - Interactive Re-Fitting as a Technique for Improving Word Embeddings [0.0]
我々は,単語の集合を互いに近づけることで,単語の埋め込み空間の一部を調整できるようにする。
提案手法では,単語埋め込みにおける潜在的なバイアスをユーザが操作する際,選択的な後処理をトリガーし,評価することができる。
論文 参考訳(メタデータ) (2020-09-30T21:54:22Z) - Lexical Sememe Prediction using Dictionary Definitions by Capturing
Local Semantic Correspondence [94.79912471702782]
セメムは人間の言語の最小の意味単位として定義されており、多くのNLPタスクで有用であることが証明されている。
本稿では,このようなマッチングを捕捉し,セメムを予測できるセメム対応プールモデルを提案する。
我々は,有名なSememe KB HowNetのモデルとベースライン手法を評価し,そのモデルが最先端のパフォーマンスを実現することを発見した。
論文 参考訳(メタデータ) (2020-01-16T17:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。