論文の概要: Investigating the Existence of "Secret Language'' in Language Models
- arxiv url: http://arxiv.org/abs/2307.12507v1
- Date: Mon, 24 Jul 2023 03:44:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 15:41:15.473643
- Title: Investigating the Existence of "Secret Language'' in Language Models
- Title(参考訳): 言語モデルにおける「秘密言語」の存在の検討
- Authors: Yimu Wang, Peng Shi, Hongyang Zhang
- Abstract要約: 我々は,NLPにおける秘密言語の問題について検討する。現在の言語モデル(LM)には,不条理な入力を意味のある概念として解釈できる隠された語彙があるように見える。
我々は、LM内の秘密言語を自動的に発見できる勾配に基づくアプローチである textitSecretFinding という新しい手法を導入する。
textitSecretFindingによって発見されたシークレット言語は非常に一般的で、ブラックボックス設定で他のモデルに転送することも可能です。
- 参考スコア(独自算出の注目度): 33.43603945460258
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we study the problem of secret language in NLP, where current
language models (LMs) seem to have a hidden vocabulary that allows them to
interpret absurd inputs as meaningful concepts. We investigate two research
questions: ``Does the secret language phenomenon exist in different language
models?'' and ``Does secret language depend on specific context?'' To answer
these questions, we introduce a novel method named \textit{SecretFinding}, a
gradient-based approach that can automatically discover secret languages in
LMs. We conduct experiments on five representative models (Electra, ALBERT,
Roberta, DistillBERT, and CLIP) finetuned on four NLP benchmarks (SST-2, MRPC,
SNLI, and SQuAD) and a language-grounding benchmark (MSCOCO). Our experimental
results show that even when we replace the most important words with others
that are semantically dissimilar to the original words in a sentence, LMs do
not consider the new sentence semantically dissimilar to the original, as the
output does not change with a high probability. This phenomenon holds true
across the five models and five tasks and gives a positive answer to the first
research question. As for the second research question, we find that the secret
language discovered by \textit{SecretFinding} is quite general and could even
be transferred to other models in the black-box settings, such as GPT-3 and
ChatGPT. Finally, we discuss the causes of secret language, how to eliminate
it, the potential connection to memorization, and ethical implications.
Examples of secret language found by SecretFinding are available on
https://huggingface.co/spaces/anonymousauthors/ACL23_SecretLanguage.
- Abstract(参考訳): 本稿では,NLPにおける秘密言語の問題について考察する。現在の言語モデル(LM)は,不条理な入力を意味のある概念として解釈できる隠れ語彙を持つように見える。
秘密言語現象は異なる言語モデルに存在するのか?」と「秘密言語は特定の文脈に依存しているのか?」という2つの研究質問に答えるために、我々は、LM内の秘密言語を自動的に発見できる勾配に基づくアプローチである「textit{SecretFinding}」という新しい手法を導入する。
我々は,4つのNLPベンチマーク(SST-2, MRPC, SNLI, SQuAD)と言語グラウンドベンチマーク(MSCOCO)の5つの代表モデル(Electra, ALBERT, Roberta, DistillBERT, CLIP)について実験を行った。
実験結果から,文章中の原文と意味的に異同する単語を他の単語に置き換えても,出力が高い確率で変化しないため,LMは原文と意味的に異同する文を考慮しないことがわかった。
この現象は5つのモデルと5つのタスクで真であり、最初の研究質問に対する肯定的な答えを与える。
2つ目の研究質問では、 \textit{SecretFinding} が発見したシークレット言語は非常に一般的であり、GPT-3 や ChatGPT といったブラックボックス設定で他のモデルに転送することも可能である。
最後に、秘密言語の原因、それを取り除く方法、記憶への潜在的なつながり、倫理的意味合いについて論じる。
SecretFindingが見つけたシークレット言語の例はhttps://huggingface.co/spaces/anonymousauthors/ACL23_SecretLanguageで見ることができる。
関連論文リスト
- HQA-Attack: Toward High Quality Black-Box Hard-Label Adversarial Attack
on Text [40.58680960214544]
テキストに対するブラックボックスのハードラベルの敵攻撃は、実用的で困難な作業である。
そこで我々は,HQA-Attack というブラックボックス・ハードラベル攻撃シナリオの下で,高品質な敵の例を生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T10:06:43Z) - Less is More: Understanding Word-level Textual Adversarial Attack via n-gram Frequency Descend [34.58191062593758]
本研究の目的は,$n$-gramの周波数パターンを調べることで,単語レベルの攻撃を解釈することである。
包括的実験により,約90%のケースにおいて,単語レベルの攻撃は,$n$-gramの頻度が減少する事例の発生につながることが明らかとなった。
この発見は、モデルの堅牢性を高めるための簡単な戦略を示唆している。
論文 参考訳(メタデータ) (2023-02-06T05:11:27Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Unsupervised Syntactically Controlled Paraphrase Generation with
Abstract Meaning Representations [59.10748929158525]
抽象表現(AMR)は、教師なし構文制御されたパラフレーズ生成の性能を大幅に向上させることができる。
提案モデルであるAMRPGは,AMRグラフを符号化し,入力文を2つの非絡み合った意味的および構文的埋め込みに解析する。
実験により、AMRPGは既存の教師なしアプローチと比較して、定量的かつ質的に、より正確な構文制御されたパラフレーズを生成することが示された。
論文 参考訳(メタデータ) (2022-11-02T04:58:38Z) - Keywords and Instances: A Hierarchical Contrastive Learning Framework
Unifying Hybrid Granularities for Text Generation [59.01297461453444]
入力テキスト中のハイブリッドな粒度意味を統一する階層的コントラスト学習機構を提案する。
実験により,本モデルがパラフレージング,対話生成,ストーリーテリングタスクにおいて,競争ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2022-05-26T13:26:03Z) - Detecting Textual Adversarial Examples Based on Distributional
Characteristics of Data Representations [11.93653349589025]
逆の例は、正しく分類された入力に小さな非ランダムな摂動を加えることで構成される。
自然言語タスクにおける敵対的攻撃へのアプローチは、文字レベル、単語レベル、フレーズレベルの摂動を用いて、過去5年間にブームとなった。
我々はこのギャップを埋めるために,NLPのための2つの新しいリアクティブ手法を提案する。
適応 LID と MDRE は、IMDB データセットに対する文字レベル、単語レベル、フレーズレベルの攻撃に対して、最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-29T02:32:02Z) - Block-Sparse Adversarial Attack to Fool Transformer-Based Text
Classifiers [49.50163349643615]
本稿では,変圧器を用いたテキスト分類器に対して,勾配に基づく逆攻撃を提案する。
実験結果から, 文の意味を抑えながら, GPT-2の精度を5%以下に抑えることができた。
論文 参考訳(メタデータ) (2022-03-11T14:37:41Z) - Phrase-level Adversarial Example Generation for Neural Machine
Translation [75.01476479100569]
本稿では,句レベルの逆例生成(PAEG)手法を提案し,モデルの堅牢性を高める。
我々は,LDC中英語,IWSLT14ドイツ語-英語,WMT14英語-ドイツ語タスクの3つのベンチマークで検証を行った。
論文 参考訳(メタデータ) (2022-01-06T11:00:49Z) - Learning to Selectively Learn for Weakly-supervised Paraphrase
Generation [81.65399115750054]
弱監督データを用いた高品質なパラフレーズを生成するための新しい手法を提案する。
具体的には、弱制御されたパラフレーズ生成問題に以下のように取り組む。
検索に基づく擬似パラフレーズ展開により、豊富なラベル付き並列文を得る。
提案手法は,既存の教師なしアプローチよりも大幅に改善され,教師付き最先端技術と同等の性能を示す。
論文 参考訳(メタデータ) (2021-09-25T23:31:13Z) - Experiments with adversarial attacks on text genres [0.0]
BERTやXLM-RoBERTaのような事前学習されたトランスフォーマーに基づくニューラルモデルは、多くのNLPタスクにおいてSOTA結果を示す。
そこで本研究では,最も重要な単語のいくつかを類似した単語に置き換えることができる埋め込み型アルゴリズムが,モデル予測にかなりの割合で影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2021-07-05T19:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。