論文の概要、ライセンス

# (参考訳) ロバストテキスト分類のためのSibylvariant Transformations [全文訳有]

Sibylvariant Transformations for Robust Text Classification ( http://arxiv.org/abs/2205.05137v1 )

ライセンス: CC BY 4.0
Fabrice Harel-Canada, Muhammad Ali Gulzar, Nanyun Peng, Miryung Kim(参考訳) NLPのテキスト変換技術の大部分は、本来のクラスラベルを保持するために暗黙の制約があるため、入力空間を拡張できる能力に本質的に制限されている。 本研究では,ラベル保存制約を緩和し,期待するクラスを故意に変更し,より多様な入力分布へと導く幅広い変換の集合を記述するために,sibylvariance (sib) の概念を提案する。 我々は,すべてのデータ変換を整理するための統一フレームワークを提供する。(1) 1つの離散種を別の種に変換する,(2) 2つ以上のクラスを混合する混合変異である。 NLPにおけるシビル分散の役割を探るため,Concept2SentenceやSentMixなど,41のテキスト変換を実装した。 Sibylvarianceはまた、最も混乱したクラスペアに対して新しい入力混合物を生成する独自の適応トレーニングを可能にし、学習者がより大きなニュアンスで区別することを挑戦する。 6つのベンチマークデータセットを用いた実験は, 一般化性能, 欠陥検出, 対向ロバスト性を強く支援する。

The vast majority of text transformation techniques in NLP are inherently limited in their ability to expand input space coverage due to an implicit constraint to preserve the original class label. In this work, we propose the notion of sibylvariance (SIB) to describe the broader set of transforms that relax the label-preserving constraint, knowably vary the expected class, and lead to significantly more diverse input distributions. We offer a unified framework to organize all data transformations, including two types of SIB: (1) Transmutations convert one discrete kind into another, (2) Mixture Mutations blend two or more classes together. To explore the role of sibylvariance within NLP, we implemented 41 text transformations, including several novel techniques like Concept2Sentence and SentMix. Sibylvariance also enables a unique form of adaptive training that generates new input mixtures for the most confused class pairs, challenging the learner to differentiate with greater nuance. Our experiments on six benchmark datasets strongly support the efficacy of sibylvariance for generalization performance, defect detection, and adversarial robustness.
公開日: Tue, 10 May 2022 19:38:54 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Sibylvariant Transformations for Robust Text Classification ロバストテキスト分類のためのSibylvariant Transformations 0.85
Fabrice Harel-Canada1, Muhammad Ali Gulzar2, Nanyun Peng1, Miryung Kim1 Fabrice Harel-Canada1, Muhammad Ali Gulzar2, Nanyun Peng1, Miryung Kim1 0.40
1Computer Science Department, University of California, Los Angeles カリフォルニア大学ロサンゼルス校 コンピュータ科学科 0.50
{fabricehc, violetpeng, miryung}@cs.ucla.edu, gulzar@cs.vt.edu fabricehc, violetpeng, miryung}@cs.ucla.edu, gulzar@cs.vt.edu 0.38
2Computer Science Department, Virginia Tech バージニア工科大学2コンピュータ科学科 0.78
2 2 0 2 y a M 0 1 2 2 0 2 y a m 0 1 である。 0.53
] L C . s c [ 1 v 7 3 1 5 0 ]LC。 sc [ 1 v 7 3 1 5 0 0.30
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Abstract The vast majority of text transformation techniques in NLP are inherently limited in their ability to expand input space coverage due to an implicit constraint to preserve the original class label. 概要 NLPのテキスト変換技術の大部分は、本来のクラスラベルを保持するために暗黙の制約があるため、入力空間を拡張できる能力に本質的に制限されている。 0.59
In this work, we propose the notion of sibylvariance (SIB) to describe the broader set of transforms that relax the labelpreserving constraint, knowably vary the expected class, and lead to significantly more diverse input distributions. 本稿では,ラベル保存制約を緩和し,期待するクラスを確実に変更し,より多様な入力分布へと導く幅広い変換の集合を記述するために,sibylvariance (sib) の概念を提案する。 0.84
We offer a unified framework to organize all data transformations, including two types of SIB: (1) Transmutations convert one discrete kind into another, (2) Mixture Mutations blend two or more classes together. 我々は,すべてのデータ変換を整理するための統一フレームワークを提供する。(1) 1つの離散種を別の種に変換する,(2) 2つ以上のクラスを混合する混合変異である。 0.76
To explore the role of sibylvariance within NLP, we implemented 41 text transformations, including several novel techniques like Concept2Sentence and SentMix. NLPにおけるシビル分散の役割を探るため,Concept2SentenceやSentMixなど,41のテキスト変換を実装した。 0.67
Sibylvariance also enables a unique form of adaptive training that generates new input mixtures for the most confused class pairs, challenging the learner to differentiate with greater nuance. Sibylvarianceはまた、最も混乱したクラスペアに対して新しい入力混合物を生成する独自の適応トレーニングを可能にし、学習者がより大きなニュアンスで区別することを挑戦する。 0.66
Our experiments on six benchmark datasets strongly support the efficacy of sibylvariance for generalization performance, defect detection, and adversarial robustness. 6つのベンチマークデータセットを用いた実験は, 一般化性能, 欠陥検出, 対向ロバスト性を強く支援する。 0.74
1 Introduction Automatically generating new data is a critical component within modern machine learning pipelines. 1 はじめに 新しいデータの自動生成は、現代の機械学習パイプラインにおいて重要なコンポーネントである。 0.55
During training, data augmentation can expose models to a larger portion of potential input space, consistently leading to better generalization and performance (Simard et al , 1998; Krizhevsky et al , 2012; Perez and Wang, 2017). トレーニング中、データ拡張はモデルに潜在的な入力空間の大部分を露出させ、一貫してより良い一般化とパフォーマンスをもたらす(simard et al , 1998; krizhevsky et al , 2012; perez and wang, 2017)。 0.85
After training, creating effective test instances from existing data can expose specific model failure modes and provide actionable corrective feedback (Zhang et al , 2019; Ribeiro et al , 2020). トレーニングの後、既存のデータから効果的なテストインスタンスを作成することで、特定のモデル障害モードを公開し、実行可能な修正フィードバックを提供することができる(Zhang et al , 2019; Ribeiro et al , 2020)。
訳抜け防止モード: トレーニングの後、既存のデータから効果的なテストインスタンスを作成する 特定のモデル障害モードを公開し、実行可能な修正フィードバックを提供する(Zhang et al, 2019; Ribeiro et al.)。 2020 ) .
0.74
While many techniques can artificially expand labeled training sets or test suites, nearly all of them 多くの技術はラベル付きトレーニングセットやテストスイートを人工的に拡張できるが、そのほとんどは 0.72
are class-preserving. That is to say, the model outputs are invariant (INV) with respect to the transformations. クラス保存です。 つまり、モデル出力は変換に関して不変(INV)である。 0.59
This cautious constraint ensures the new data does not lie in an out-of-distribution null class which might impede the learning objective. この慎重な制約により、新しいデータが、学習目標を妨げる可能性のある分散のnullクラスに含まれないことが保証される。 0.62
However, it also requires more conservative transforms that inherently limit the degree of diversification. しかし、本質的に多様化の程度を制限するより保守的な変換も必要である。 0.67
In this work, we propose and extensively investigate the potential of sibylvariant (SIB) transformations that knowably vary the expected class. そこで本研究では,期待されるクラスを意識的に変化させるシビル変種 (SIB) 変換の可能性について検討する。 0.69
From the Greek sibyls, or oracles, the term parallels the oracle construction problem in software testing (Barr et al , 2015). ギリシャ語の sibyls または oracles から、この用語はソフトウェアテストにおける oracle construction problem (barr et al , 2015) に類似している。 0.77
In a nutshell, sibylvariants either fully transmute a datum from one class ci to another cj, or mix data from multiple classes together to derive a new input with a soft label that reflects the mixed membership. 一言で言えば、sibylvariants は、あるクラス ci から別の cj へ完全に datum を変換するか、複数のクラスからデータを混合して新しい入力と混合メンバシップを反映したソフトラベルを導出する。 0.72
In this way, SIB can more strongly perturb and diversify the underlying distribution. このように、SIBはより強く摂動し、基礎となる分布を多様化することができる。 0.58
Moreover, SIB makes possible a new type of adaptive training by synthesizing data from frequently confused class pairs, challenging the model to differentiate with greater refinement. さらに、SIBは、しばしば混同されるクラスペアからデータを合成し、より洗練されたモデルに挑戦することで、新しいタイプの適応トレーニングを可能にする。
訳抜け防止モード: さらに、SIBは適応トレーニングの新たなタイプを可能にする。 しばしば混乱するクラスペアからデータを合成し より洗練されたモデルに挑戦する
0.81
In the following sections, we position SIB within a broader conceptual framework for all data transforms (Section 2) and highlight several newly proposed techniques (Section 3). 以下の節では、sibを、すべてのデータ変換のより広い概念的枠組み(セクション2)に位置づけ、新しく提案されたいくつかのテクニック(セクション3)を強調する。 0.58
To support a comprehensive evaluation of how SIB may complement or even surpass its INV counterparts, we implemented 41 new and existing techniques into an open source tool called Sibyl. SIB が INV を補完するか,あるいは超越するかを総合的に評価するために,Sibyl というオープンソースツールに41の新たな既存技術を実装した。 0.76
Equipped with the framework and tool, we evaluate 3 central research questions: フレームワークとツールを備えた3つの中心的な研究課題を評価する。 0.66
• RQ1. Generalization Performance. ~RQ1。 一般化性能。 0.51
Does training on SIB-augmented data improve model accuracy on the original test set? SIB強化データのトレーニングは、元のテストセットのモデルの精度を向上させるか? 0.71
• RQ2. Defect Detection. ~RQ2。 欠陥検出 0.37
For models trained on the original dataset, how effective are SIB tests at inducing misclassifications? オリジナルのデータセットでトレーニングされたモデルの場合、sibテストはどの程度効果的か? 0.68
• RQ3. Adversarial Robustness. ~RQ3。 敵意の強固さ。 0.33
Are models trained on SIB-augmented data more robust to existing adversarial attack algorithms? SIB強化データに基づいてトレーニングされたモデルは、既存の攻撃アルゴリズムよりも堅牢か? 0.63
英語(論文から抽出)日本語訳スコア
Our comprehensive evaluation encompasses 6 text classification datasets, 11 transformation pipelines, and 3 different levels of data availability. 包括的な評価には、6つのテキスト分類データセット、11の変換パイプライン、3つの異なるレベルのデータ可用性が含まれています。 0.56
In total, we trained 216 models and generated over 30 million new training inputs, 480,000 testing inputs, and 3,300 adversarial inputs. 合計216のモデルをトレーニングし、3000万以上の新しいトレーニングインプット、480,000のテストインプット、3300の敵インプットを生成しました。 0.53
In the generalization study, SIB attained the highest accuracies in 89% (16 out of 18) of experimental configurations, with the adaptive mixture mutations being the most consistently effective. 一般化研究において、SIBは実験構成の89%(16点中16点)において最も高い精度を達成し、適応混合変異は最も一貫して有効であった。 0.76
SIB also revealed the greatest number of model defects in 83% (5 out of 6) of the testing configurations. SIBはまた、テスト構成の83%(6つ中5つ)で最大のモデル欠陥を明らかにした。 0.80
Lastly, of all the experimental configurations where adversarial robustness was improved over the no-transform baseline, 92% (11 out of 12) of them involved SIB. 最後に、非変換ベースラインに対して逆方向の強靭性を改良した全ての実験構成のうち、92%(11)がSIBに関与した。 0.74
Overall, our findings strongly support the efficacy of sibylvariance for generalization performance, defect detection, and adversarial robustness. 全体として, 一般化性能, 欠陥検出, 敵対的ロバスト性に対するsibylvarianceの有効性を強く支持した。 0.68
Lastly, we describe how SIB may operate theoretically and discuss potential threats to validity (Section 5) before contrasting it with related work (Section 6). 最後に、SIBが理論的にどのように機能するかを説明し、関連する作業と対比する前に、有効性に対する潜在的な脅威(第5部)について議論する(第6部)。 0.49
The source code for Sibyl and our experiments is available at: https://github. sibylと私たちの実験のソースコードは、以下のとおりです。 0.68
com/UCLA-SEAL/Sibyl. 略称はUCLA-SEAL/Sibyl。 0.31
2 Sibylvariance All data transformations in the classification setting can be categorized into one of two types: 2 sibylvariance 分類設定におけるすべてのデータ変換は、以下の2つのタイプに分類できる。 0.85
• Invariant (INV) preserves existing labels. • Invariant (INV) は既存のラベルを保存する。 0.72
{TIN V (Xi), yi} → {Xj, yi} {tin v (xi), yi} → {xj, yi} 0.37
where Xi (cid:54)= Xj ここで xi (cid:54) = xj 0.62
(1) For example, contracting “What is the matter?” to “What’s the matter?”should preserve a model behavior for sentiment analysis. (1) 例えば、“何が問題なのか?”を“何が問題なのか?”と契約すると、感情分析のためのモデル行動が保たれます。 0.58
• Sibylvariant (SIB) changes an existing label • sibylvariant (sib) 既存のラベルを変更する 0.88
in a knowable manner. 分かりやすいやり方で。 0.50
TSIB({Xi, yi}) → {Xj, yj} where Xi (cid:54)= Xj and yi (cid:54)= yj. TSIB({Xi, yi}) → {Xj, yj} ここで Xi (cid:54) = Xj と yi (cid:54) = yj である。 0.93
(2) SIB transforms both the input Xi to Xj and the output label from yi to yj label, corresponding to the new Xj; such transformation is analogous to mutating an input and setting a corresponding oracle in metamorphic testing (Chen et al , 2020b). (2) SIBは新しいXjに対応する入力Xiと出力ラベルの両方をyiからyjラベルに変換する。
訳抜け防止モード: (2) SIBは入力XiをXjに変換し、出力ラベルをyiからyjラベルに変換する。 新しい Xj に対応する; そのような変換は、 入力を変更し、メタモルフィックテストで対応するオラクルを設定する( Chen et al, 2020b )。
0.57
For example, performing a verb-targeted antonym substitution on “I love pizza.” to generate “I hate pizza.” has the effect of negating the original semantics and will knowably affect the outcome of binary sentiment analysis. 例えば、"I hate pizza." を生成するために "I love pizza." で動詞をターゲットとした反語置換を行う場合、元の意味論を否定する効果があり、二分感情分析の結果に影響を及ぼす。 0.77
It is important to note that transformation functions are not inherently INV nor SIB. 変換関数は本質的には INV や SIB ではないことに注意する必要がある。 0.65
The same exact transformation may have a different effect on expected model behavior depending on the particular classification task. 同じ正確な変換は、特定の分類タスクによって予測されるモデルの振る舞いに異なる影響を与える可能性がある。 0.64
For example, random word insertions generally have an INV effect on topic classification tasks, but would be SIB with respect to grammaticality tasks (Warstadt et al , 2018). 例えば、ランダムな単語挿入は通常、トピック分類タスクにINV効果を持つが、文法的なタスクに関してはSIBである(Warstadt et al , 2018)。 0.72
2.1 Sibylvariant Subtypes SIB can be further refined based on the types and degree of semantic shift in newly generated data: 2.1 Sibylvariant Subtypes SIB は、新たに生成されたデータの型と程度に基づいてさらに洗練することができる。 0.78
• Transmutation changes one discrete kind into another, excluding the existing label, L\{yi}, • 変換は、既存のラベル L\{yi} を除いて、ある離散型を別の離散型に変化させる。 0.60
TSIB({Xi, yi}) → {Xj, yj} where Xi (cid:54)= Xj and yj ∈ L\{yi}. TSIB({Xi, yi}) → {Xj, yj} ここで Xi (cid:54) = Xj と yj ∈ L\{yi} である。 0.96
(3) Critically, the newly created data points retain stylistic and structural elements of the original that help boost diversity. (3) 批判的に、新たに作成されたデータポイントは、多様性を高めるためにオリジナルのスタイルと構造的要素を保持します。 0.52
• Mixture Mutation mixes inputs from multiple classes and interpolates the expected behavior into a mixed label distribution (i.e. soft label). • Mixture Mutationは複数のクラスからの入力を混合し、期待される振る舞いを混合ラベル分布(ソフトラベル)に補間する。 0.86
Equivalently, we have: TSIB({Xi, yi}) → {Xj, yj} where Xi (cid:54)= Xj and yj ∈ 同等に、私たちは TSIB({Xi, yi}) → {Xj, yj} ここで Xi (cid:54)= Xj と yj ∈ 0.79
|L|(cid:92) |L|(cid:92) 0.33
λl (4) l λl (4) うーん 0.43
a probability distribution (i.e. (cid:80) 確率分布(すなわち (cid:80) 0.38
where the final term indicates a λ-degree of membership in each label l belonging to the expected input space and is normalized as l λl = 1). 最終項は、期待入力空間に属する各ラベル l における λ-次数を表し、 l λl = 1) として正規化される。 0.75
For example, a document with topic ‘surfing’ can be combined with another document with topic ‘machine learning’ to yield a new label with probability mass placed on both topics. 例えば、トピック ‘surfing’ のドキュメントと、トピック ‘machine learning’ の別のドキュメントを組み合わせることで、両方のトピックに確率質量を割り当てた新しいラベルが得られる。 0.78
While mixture mutations may seem unnatural, the intuition is that humans can recognize mixed examples and adjust their predictions accordingly. 混合突然変異は不自然なように見えるかもしれないが、直感的には、人間が混合例を認識し、それに応じて予測を調整することができる。
訳抜け防止モード: 混合突然変異は不自然に見えるかもしれないが、直感は、 人間は混合例を認識し 予測を調整できます
0.68
Models ought to do the same. モデルは同じことをすべきです。 0.80
2.2 Adaptive Sibylvariant Training One unique and promising aspect of SIB is to target specific class pairings dynamically during training. 2.2 Adaptive Sibylvariant Training SIBのユニークな特徴は、トレーニング中に特定のクラスペアを動的にターゲットすることである。 0.75
In much the same way that a human teacher might periodically assess a students’ understanding and alter their lesson plan accordingly, Sybil computes a confusion matrix and constructs more examples containing classes for which the model has the most difficulty differentiating. 人間の教師が生徒の理解を定期的に評価し、それに従って授業計画を変更するのと同じように、sybilは混乱行列を計算し、モデルの差別化が最も難しいクラスを含むより多くの例を構築します。 0.71
For example, 例えば 0.39
英語(論文から抽出)日本語訳スコア
if a topic model most frequently misclassifies ‘science’ articles as ‘business,’ adaptive SIB (denoted as αSIB) will generate new blended examples of those classes in every mini-batch until the next evaluation cycle. トピックモデルが'ビジネス'の項目を'ビジネス'と誤分類する場合、適応型SIB(αSIBと表記される)は、次の評価サイクルまですべてのミニバッチでそれらのクラスをブレンドした新しい例を生成します。 0.68
At that point, if the model confuses ‘science’ for “health,” αSIB will construct new mixtures of those classes and so on. その時点で、モデルが「科学」を「健康」と混同すると、αSIBはそれらのクラスを新しい混合物として構築する。 0.77
Sybil supports built-in runtime monitoring for αSIB training. sybilは組み込みのランタイム監視とαsibトレーニングをサポートする。 0.52
3 Transformations In Sybil, we defined 18 new transforms and adapt 23 existing techniques from prior work (Ribeiro et al , 2020; Morris et al , 2020; Wei and Zou, 2019) to expand the coverage of SIB and INV text transformations. 3変態 Sybilでは18の新しいトランスフォーメーションを定義し、以前の作業(Ribeiro et al , 2020; Morris et al , 2020; Wei and Zou, 2019)から既存の23のテクニックを適用し、SIBおよびINVテキストトランスフォーメーションの範囲を広げました。 0.69
At a high level, Table 1 shows these 41 transforms organized into 8 categories: Mixture (i.e., blending text), Generative (i.e. concept-based text generation), Swap (e g , substituting antonyms, synonyms, hypernyms, etc.), Negation (e g , adding or removing negation), Punctuation (e g , adding or removing punctuation), Text Insert (e g , adding negative, neutral, or positive phrases), Typos (e g adding various typos), and Emojis (e g adding or removing positive or negative emoji). 表1は、この41の変換を8つのカテゴリに分類している: 混合(テキストをブレンディングする)、生成(概念ベースのテキスト生成)、スワップ(例えば、アントニム、シノニム、ハイパーネムを置換する)、否定(eg、ネゲーションの追加または削除)、句読点(eg、句読点の追加または削除)、テキストインサート(eg、負、中性、あるいは正の句の追加)、タイポ(eg、様々なタイポの追加または否定的な絵文字の追加)、エモジ(emojis、g、正または負の絵文字の追加または削除)。 0.71
We highlight several signature transforms here and provide a more detailed listing in Appendix A. ここではいくつかのシグネチャ変換を取り上げ、さらに詳細なリストを appendix a に示す。 0.60
Category Mixture Generative Swap カテゴリー混合生成スワップ 0.75
Negation Punctuation Text Insert 否定論 テキスト挿入 0.50
Typos Emojis Transformations TextMix†, SentMix†, WordMix† Concept2Sentence†, ConceptMix† ChangeNumber, ChangeSynonym, ChangeAntonym, ChangeHyponym, ChangeHypernym, ChangeLocation, ChangeName, RandomSwap AddNegation, RemoveNegation ExpandContractions, ContractContractions RandomInsertion, AddPositiveLink†, ImportLinkText†, AddNegativeLink†, InsertPositivePhrase , InsertNegativePhrase RandomCharDel, RandomCharInsert, RandomCharSubst, RandomCharSwap, RandomSwapQwerty, WordDeletion, HomoglyphSwap Emojify†, AddEmoji†, AddPositiveEmoji†, AddNegativeEmoji†, AddNeutralEmoji†, Demojify†, RemovePositiveEmoji†, RemoveNegativeEmoji†, RemoveNeutralEmoji† タイポス 絵文字 Transformations TextMix†, SentMix†, WordMix† Concept2Sentence†, ConceptMix† ChangeNumber, ChangeSynonym, ChangeAntonym, ChangeHyponym, ChangeHypernym, ChangeLocation, ChangeName, RandomSwap AddNegation, RemoveNegation ExpandContractions, ContractContractions RandomInsertion, AddPositiveLink†, ImportLinkText†, AddNegativeLink†, InsertPositivePhrase , InsertNegativePhrase RandomCharDel, RandomCharInsert, RandomCharSubst, RandomCharSwap, RandomSwapQwerty, WordDeletion, HomoglyphSwap Emojify†, AddEmoji†, AddPositiveEmoji†, AddNegativeEmoji†, AddNeutralEmoji†, Demojify†, RemovePositiveEmoji†, RemoveNegativeEmoji†, RemoveNeutralEmoji† 0.39
RemoveEmoji†, Table 1: Transformations currently available in Sybil. を削除。 表1: Sybilで現在利用可能な変換。 0.61
New transforms that we defined are marked with †. 私たちが定義した新しい変換は ? でマークされる。 0.56
Figure 1: C2S intakes a text and its label (red) to extract keywords, [’stupid, worse’]. 図1: c2sはテキストとそのラベル(赤い)を使ってキーワード [’stupid, worse’]を抽出する。 0.77
These words are used to generate a new INV sentence shown in red. これらの単語は、赤で示される新しいINV文を生成するために使用される。 0.64
Alternatively, antonym (left) and synonym (right) substitution can produce new concepts that further boost diversity. あるいは、対義語(左)と同義語(右)の置換は、多様性をさらに高める新しい概念を生み出すことができる。 0.65
Concept2Sentence (C2S). concept2sentence (c2s) の略。 0.48
C2S is a two step process: (1) extract a short list of key concepts from a document and (2) generate a new sentence that retains critical semantic content of the original while varying its surface form, style, and even subject matter. C2S は,(1) 文書からキー概念の短いリストを抽出し,(2) 表面形状やスタイル,さらには主題も変化しながら,原文の重要な意味的内容を保持する新しい文を生成する,という2段階のプロセスである。 0.87
To accomplish this, we leveraged integrated gradients (Sundararajan et al , 2017; Pierse, 2021) to produce saliency attributions that identify the most relevant tokens for a given class label. これを実現するために、統合的な勾配(Sundararajan et al , 2017; Pierse, 2021)を活用して、与えられたクラスラベルの最も関連性の高いトークンを識別する。 0.70
We then generate a well-composed sentence from the extracted concepts using a pre-trained BART (Lewis et al , 2019) model fine-tuned on the CommonGen dataset (Lin et al , 2019). 次に、抽出された概念から、CommonGenデータセット(Lin et al , 2019)に基づいて、事前訓練されたBART(Lewis et al , 2019)モデルを用いて、よく構成された文を生成する。 0.63
Prior to generation, it is possible to apply other transformations to the extracted concepts to encourage diversity or knowably alter the label. 生成前に、抽出された概念に他の変換を適用し、多様性を奨励したり、ラベルを周知的に変更することができる。 0.58
For example, on the left hand side of Figure 1 an antonym substitution produces a SIB effect by changing the extracted concepts from [’stupid’, ’worse’] to [’intelligent’, ’better’]. 例えば、図1の左側では、対義語置換は、抽出された概念を[’stupid’, ’worse’]から[’intelligent’, ’better’]に変更することにより、sib効果を生成する。 0.76
The new sentence exhibits a change in subject and style, but is correctly transmuted to have positive sentiment. 新しい文は主題やスタイルの変化を示すが、正の感情を持つように正しく変換される。 0.72
C2S is thus an extremely promising transformation for diversifying text along both INV and SIB directions. したがって、C2SはINV方向とSIB方向の両方でテキストを多様化するための非常に有望な変換である。 0.48
TextMix, SentMix, and WordMix. textmix、sendmix、wordmix。 0.52
Mixture mutations, like mixup (Zhang et al , 2017) and cutmix (Yun et al , 2019) from the image domain, take a batch of inputs and blend them together to form new inputs with an interpolated loss and they have shown robustness to adversarial attacks. 画像領域からのミックスアップ(Zhang et al , 2017)やカットミックス(Yun et al , 2019)のような混合突然変異は、一連の入力を取り込み、それらをブレンドして補間された損失で新しい入力を形成し、敵の攻撃に対して堅牢性を示している。 0.73
TextMix translates this idea to the text domain by merging two inputs and interpolating a soft label according to the proportion of tokens belonging to the constituent classes. TextMixはこのアイデアをテキストドメインに変換し、2つの入力をマージし、構成クラスに属するトークンの割合に応じてソフトラベルを補間する。 0.76
While TextMix does textmixは 0.44
英語(論文から抽出)日本語訳スコア
a straightforward concatenation, SentMix shuffles the sentences and thus encourages long-range comprehension. 単純な結合であるsendmixは文をシャッフルし、長距離の理解を促進する。 0.58
WordMix concatenates and shuffles all words, encouraging keyword-to-topic understanding when sentence structure is compromised. WordMixはすべての単語を結合してシャッフルし、文構造が損なわれてもキーワードから話題への理解を促す。 0.52
4 Experiments 4.1 Transformation Pipelines & Datasets To compare the potential of INV, SIB, and both (INVSIB) in aggregate, we construct a transformation pipeline (T P ) (Cubuk et al , 2019; Xie et al , 2019), where we uniformly sample n transformations of the selected kind to generate new {Xi, yi} pairs. 4 実験 4.1 変換パイプラインとデータセットによる inv, sib, and both (invsib) のポテンシャルを比較するため,変換パイプライン (cubuk et al , 2019; xie et al , 2019) を構築し,選択した種類の n 変換を一様にサンプリングして新しい {xi, yi} ペアを生成する。 0.77
We also create T P s that apply a single transform, TSINGLE, to highlight the efficacy of C2S, TextMix, SentMix, WordMix and their adaptive versions, prefixed with α. また、C2S、TextMix、SentMix、WordMix、およびそれらの適応バージョンのαでプレフィックスされた有効性を強調するために、単一の変換であるTSINGLEを適用するTPも作成します。 0.64
In total, we evaluate 11 T P s per dataset, shown in Table 2. 表2に示すように,データセット当たり11 T P s の評価を行った。 0.82
Due to space limitations, we report the top performing T P of each kind using an asterisk (*). 空間的制約のため、アスタリスク(*)を用いて各種類のトップパフォーマンスtpを報告する。 0.55
INV* represents the best from TINV and TC2S, while SIB* represents the best from TSIB and the mixture mutations. INV* は TINV と TC2S から、SIB* は TSIB と混合変異から最良である。
訳抜け防止モード: INV * は TINV と TC2S の最高値を表す。 SIB * は TSIB と混合変異から最良である。
0.75
For RQ1, we also compare against TMix (Chen et al , 2020a), EDA (Wei and Zou, 2019), and AEDA (Karimi et al , 2021). RQ1では、TMix(Chen et al , 2020a)、EDA(Wei and Zou, 2019)、AEDA(Karimi et al , 2021)と比較する。
訳抜け防止モード: RQ1については、TMix ( Chen et al, 2020a ) と比較する。 EDA (We and Zou, 2019 ) と AEDA (Karimi et al, 2021 )。
0.77
TMix is a recent hidden-space mixture mutation for text, as opposed to Sybil’s direct mixture mutation on the input space with greater transparency and examinability. TMixは、Sybil氏の入力空間での直接混合突然変異とは対照的に、最近のテキストの隠れスペース混合突然変異であり、透明性と検査性が高い。 0.70
EDA and AEDA are examples of recent INV transformations. EDAとAEDAは最近のINV変換の例である。 0.68
Full results are available in the appendices. 完全な結果は付録で確認できる。 0.60
Shorthand Description TORIG TINV TSIB TINVSIB TSINGLE 略記 torig tinv tsib tinvsib tsingle 0.23
0 transformations as baseline sample 2 INVs sample 2 SIBs sample 1 INV and 1 SIB apply one from C2S, TextMix, SentMix, WordMix, αTextMix, αSentMix, αWordMix SIBs sample 2 INVs sample 2 INV and 1 SIB apply one from C2S, TextMix, SentMix, WordMix, αTextMix, αSentMix, αWordMix
訳抜け防止モード: 0) をベースライン標本2 INVsサンプル2 SIBsサンプル1 INVとする。 そして 1 SIB は C2S, TextMix, SentMix, WordMix、αTextMix、αSentMix、αWordMix
0.87
Table 2: T P descriptions. 表2: T P 記述。 0.75
T P s with an α-prefix use targeted, adaptive training (Section 2.2). α-プレフィックスによる目標適応トレーニング(Section 2.2)を備えたTPs。 0.72
We study six benchmarks for two kinds of NLP tasks: topic classification and sentiment analysis. トピック分類と感情分析の2種類のNLPタスクに対する6つのベンチマークについて検討した。 0.61
Table 3 summarizes their relevant details. 表3は関連する詳細をまとめたものです。 0.59
To simulate different levels of resource availability, we create three data subsets with by varying number of examples per class — 10, 200, and 2500. さまざまなレベルのリソース可用性をシミュレートするために,クラス毎に10,200,2500という,3つのデータサブセットを生成します。 0.83
These subsets were expanded 30× via augmentation for each T P . これらの部分集合は各tpの増補によって30×拡大された。 0.51
In total, we generated 144 new datasets 合計144のデータセットを生成しました 0.71
(144 = 6 benchmarks * 3 levels of data availability * 8 T P s which persist data. αSIB is runtime only.) (144 = 6 ベンチマーク * 3 レベルのデータ可用性 * 8 t p s データを保持する。 αsib は実行時のみ) 0.86
4.2 Model Setting We used a bert-base-uncased model (Devlin et al , 2018) with average pooling of encoder output, followed by a dropout layer (Srivastava et al , 2014) with probability 0.1, and a single linear layer with hidden size 768 and GELU (Hendrycks and Gimpel, 2016) activation. 4.2モデル設定 平均エンコーダ出力プーリングを伴うbert-base-uncasedモデル (Devlin et al , 2018) と, 確率0.1のドロップアウト層 (Srivastava et al , 2014) と, 隠れサイズ768およびGELU (Hendrycks and Gimpel, 2016) の1つの線形層 (Hendrycks and Gimpel, 2016) を用いた。 0.83
Maximum sentence length was set to 250. We use a batch size 16, an Adam optimizer (Kingma and Ba, 2014) with a linear warmup, a 0.1 weight decay, and compute accuracy every 2, 000 steps. 最大文長は250。 バッチサイズ16とadamオプティマイザ(kingma and ba, 2014)を使用し,線形ウォームアップ,0.1重量崩壊,20000ステップ毎に精度を計算した。 0.58
All models were trained for 30 epochs on eight Nvidia RTX A6000 GPUs, with early stopping. すべてのモデルは、nvidia rtx a6000 gpu 8台で30エポックのトレーニングを受け、早期停止した。 0.69
In total, we constructed 198 different models. 合計で198の異なるモデルを作りました 0.74
For all T P s that produce a soft-label, we use a multi-class cross-entropy loss and computed performance via a weighted top-k accuracy, ソフトラベルを生成するすべてのtp sでは、多クラスクロスエントロピー損失と重み付きトップk精度による計算性能が使用される。 0.61
k(cid:88) λl · 1(yl = ˆyj), k(cid:88) λl · 1(yl = syj) である。 0.59
(5) where λj is the degree of class membership, 1(·) is the indicator function, and yj and ˆyj are the indices of the j-th largest predicted score for the ground truth label and predicted label, respectively. (5) λj がクラスメンバーシップの次数であり、1(·) が指標関数であり、yj と yj がそれぞれ基底真理ラベルと予測ラベルの j 番目に大きい予測スコアの指標である。 0.75
j 4.3 RQ1. j 4.3 RQ1。 0.36
Generalization Performance For RQ1, we explore how model accuracy on the original test set is influenced by training data augmented with INV and SIB transformations. 一般化性能 RQ1では、元のテストセットのモデル精度が、INVおよびSIB変換を付加したトレーニングデータの影響について検討する。
訳抜け防止モード: RQ1の一般化性能について 元のテストセットのモデル精度は、INVおよびSIB変換を付加したトレーニングデータに影響される。
0.77
Table 4 shows the results on six benchmarks with three levels of data availability. 表4は、データ可用性のレベルが3つある6つのベンチマークの結果を示しています。 0.56
We observe the most significant performance gains when training 10 examples per class —accuracy is improved by 4.7% on average across all datasets and by a maximum of up to 15% for IMDB. 私たちは、クラス毎に10の例をトレーニングした場合、最も大きなパフォーマンス向上を観察しています — 精度は、すべてのデータセットの平均で4.7%向上し、imdbでは最大15%向上しています。
訳抜け防止モード: クラス毎の10例のトレーニングにおいて,最も重要なパフォーマンス向上を観察する 精度は全データセットで平均4.7%向上 そして IMDB は最大で 15 % まで上昇する。
0.89
Figure 2 shows that as the number of labeled training data increases, a dominant trend emerged —TSIB always generalized better to unseen test data. 図2は、ラベル付きトレーニングデータの数が増加するにつれて、優勢な傾向が現れていることを示しています。 0.67
In fact, the only kind of transformation to always outperform both TORG and TMix is SIB*. 実際、TORG と TMix を常に上回る唯一の変換は SIB* である。 0.57
Figure 3 shows the performance delta between INV* and SIB* against the TORG baseline at 200 examples per class. 図3は、 INV* と SIB* の TORG ベースラインに対する性能差を、クラス毎に 200 の例で示しています。 0.66
For every dataset, either αSentMix or αTextMix is the best performing T P , while INV* actually leads to performance decreases for DBPedia, Yahoo! Answers, and IMDB. すべてのデータセットにおいて、αSentMixまたはαTextMixが最高のパフォーマンスのTPであるのに対して、INV*はDBPedia、Yahoo! Answers、IMDBのパフォーマンス低下につながる。
訳抜け防止モード: すべてのデータセットに対して、αSentMix または αTextMix が最高のパフォーマンスの T P である。 INV * は DBPedia, Yahoo ! Answers, IMDB のパフォーマンス低下につながる。
0.87
One key reason that aided SIB in attaining strong performance is the use of adaptive training. SIBが強力なパフォーマンスを達成する上で重要な理由は、適応トレーニングを使用することである。 0.61
On average, crafting new examples that target the 平均して、ターゲットとする新しい例を作る 0.82
英語(論文から抽出)日本語訳スコア
Dataset AG News DBpedia Yahoo! Answers Amazon Polarity Yelp Polarity IMDB dataset ag news dbpedia yahoo! amazon polarity yelp polarity imdbへの回答 0.76
Classes 4 14 10 2 2 2 クラス 4 14 10 2 2 2 0.58
Test Avg Len 38 1,900 46 5,000 6,000 92 74 200,000 133 10,000 12,500 234 Table 3: Dataset details. Avg Len 38 1,900 46 5,000 6,000 92 74 200,000 133 10,000 12,500 234 Table 3:データセットの詳細。 0.63
Test represents the number of examples per class in the test set. テストはテストセット内のクラス毎の例の数を表します。 0.80
Source Task (Zhang et al , 2015) Topic (Zhang et al , 2015) Topic (Zhang et al , 2015) Topic (Zhang et al , 2015) Sentiment Product Reviews (Zhang et al , 2015) Sentiment Business Reviews (Maas et al , 2011) Sentiment Movies Reviews source task (zhang et al , 2015) topic (zhang et al , 2015) topic (zhang et al , 2015) topic (zhang et al , 2015) sentiment product reviews (zhang et al , 2015) sentiment business reviews (maas et al , 2011) sentiment movies reviews 0.39
Subject News Articles Wikipedia Articles QA Posts ニュース記事 ウィキペディア 記事 qa ポスト 0.59
on 10 examples per class with a 3× augmentation multiplier. クラス毎に3×増倍乗算器を持つ10の例について。 0.61
Based on this experiment, we then computed each transform’s performance by averaging the accuracy change relative to a TORIG baseline across all datasets. この実験に基づいて、各変換のパフォーマンスを、すべてのデータセットにわたるTORIGベースラインに対する精度変化を平均化して計算した。 0.84
Table 5 shows the top ten best performing transforms, six of which employ SIB techniques. 表5は、最高の10の変換であり、そのうち6つはSIB技術を使用している。 0.54
These results expand support for the overall conclusion that sibylvariance represents an especially effective class of transformations for improving generalization performance. これらの結果は、sibylvarianceが一般化性能を改善するための特に効果的な変換のクラスである、という全体的な結論への支持を広げる。 0.54
Generalization Performance. Models trained upon SIB-augmented data attained the highest test set accuracy in 89% (16 out of 18) of experimental configurations, with the adaptive mixture mutations being the most consistently effective. 一般化性能。 SIB拡張データに基づいてトレーニングされたモデルは、実験構成の89%(16点中16点)において、最も高いテストセット精度を達成し、適応混合変異は最も一貫して有効であった。 0.72
4.4 RQ2. Defect Detection For RQ2, we assess how generating new tests with INV and SIB can expose defective model behavior. 4.4RQ2。 欠陥検出 RQ2 では,INV と SIB で新しいテストを生成することで,欠陥のあるモデル動作を明らかにする方法を評価する。 0.61
A single test is simply an {Xi, yi} pair and a test suite is a set of such tests. 単一のテストは単に {Xi, yi} のペアであり、テストスイートはそのようなテストのセットである。 0.83
Defective behavior is misclassification, which is measured via a test suite’s accuracy. 欠陥行動は誤分類であり、テストスイートの精度によって測定される。 0.80
For each dataset D, we select a high-performing BERT model trained only on the original dataset without any augmentation. 各データセットDについて、拡張することなく、元のデータセットでのみトレーニングされた高性能BERTモデルを選択する。 0.61
Then for each of eight T P s (excluding αSIB relevant to training only), we create 100 test suites, each containing 100 randomly sampled tests. そして、8つのTP(トレーニングのみに関連するαSIBを除く)それぞれに対して、ランダムにサンプリングされた100のテストスイートを作成します。 0.71
This yields a total of 480,000 tests. 総計480,000回の試験が行われる。 0.65
We then report an average accuracy for each D and T P pair. 次に、各DとTPのペアの平均精度を報告する。 0.72
Figure 4 shows how defect detection is enabled by INV and SIB. 図4は、invとsibによる欠陥検出の方法を示しています。 0.60
With the exception of Yahoo! Answers, the models scored nearly perfect accuracy on TORIG; however, when the same models are tested using data generated with INV and SIB, they struggle to generalize. Yahoo! Answersを除いて、このモデルはTORIGでほぼ完璧に精度を上げたが、同じモデルがINVとSIBで生成されたデータを使ってテストされると、一般化に苦労する。 0.70
Test data synthesized with SIB can reveal most defects in these models, indicating the value of sibylvariance in constructing test oracles for ML models in the absence of SIBで合成されたテストデータは、これらのモデルにおけるほとんどの欠陥を明らかにすることができ、不在時にMLモデルに対するテストオラクルを構築する際のシリル分散の値を示す。
訳抜け防止モード: SIBで合成されたテストデータは、これらのモデルのほとんどの欠陥を明らかにすることができる。 MLモデルのテストオラクル構築におけるシビル分散の値を示す
0.71
Figure 2: SIB* outperforms INV* most, when data availability is low, indicating the necessity of SIB to complement INV. 図2: SIB* は INV* よりも優れており、データの可用性が低く、INV を補完する SIB の必要性を示している。 0.71
Figure 3: The best performing TP for each dataset trained on 200 examples per class. 図3: クラス毎に200の例でトレーニングされた各データセットで最高のパフォーマンスtp。 0.72
αSentMix or αTextMix leads to the highest performance gains. αSentMixまたはαTextMixは最高のパフォーマンス向上をもたらす。 0.74
SIB* consistently outperforms INV*. SIB* は INV* を一貫して上回る。 0.60
model’s primary confusions during training added approximately 1% to accuracy relative to mixing classes uniformly at random. トレーニング中のモデルの主な混乱は、クラスをランダムに混合する際の精度を約1%向上させた。 0.70
This shows another unique benefit of sibylvariance that is not transferable to its INV counterparts. このことは、そのINVに転移できないシリル分散の別のユニークな利点を示している。 0.54
While our full scale experiments show a clear trend that SIB generally outperforms INV, we primarily evaluated T P s combining multiple transforms instead of assessing the efficacy of each in isolation. SIB は一般に INV より優れる傾向を示したが,本実験では個別に各変換の有効性を評価するのではなく,複数の変換を組み合わせた TP s を主に評価した。 0.70
Initially, this was a logistical decision due to computational limitations. 当初、これは計算上の制限による論理的な決定であった。 0.64
To investigate each transformation’s effect individually, we conducted a small scale experiment training 756 models ((39 transformations + 3 αSIB) × 6 datasets × 3 runs) それぞれの変換の効果を個別に調査するため,756モデル((39変換+3αSIB)×6データセット×3実行)の小規模実験を行った。 0.87
英語(論文から抽出)日本語訳スコア
Dataset TP Amazon Polarity データセット TP amazon極性 0.58
Yelp Polarity Yahoo! Answers Yelp 極性 yahoo! 答え 0.61
IMDB AG News IMDB AGニュース 0.60
DBpedia Dataset DBpedia データセット 0.52
TP Dataset 200 88.70 89.46 89.80 89.00 88.62 88.98 88.74 89.22 89.53 90.03 89.06 87.98 87.68 88.92 TP データセット 200 88.70 89.46 89.80 89.00 88.62 88.98 88.74 89.22 89.53 90.03 89.06 87.98 87.68 88.92 0.42
TP # Examples / Class 2500 10 ORIG 95.71 98.96 INV* 99.00 97.29 99.06 97.96 SIB* 98.92 INVSIB 95.64 TMix ‡ 98.89 97.51 EDA ‡ 97.42 98.89 AEDA ‡ 98.89 97.30 93.70 74.62 ORIG 83.91 94.29 INV* 94.69 SIB* 80.46 INVSIB 78.90 93.03 TMix ‡ 92.80 61.81 EDA ‡ 94.11 71.90 AEDA ‡ 79.39 94.06 TP # Examples / Class 2500 10 ORIG 95.71 98.96 INV* 99.00 97.29 99.06 97.96 SIB* 98.92 INVSIB 95.64 TMix (98.89 97.51 EDA) 97.42 98.89 AEDA 98.89 97.30 93.70 74.62 ORIG 83.91 94.29 INV* 94.69 SIB* 80.46 INVSIB 78.90 93.03 TMix 92.80 61.81 EDA 94.11 71.90 AEDA 79.96.06 0.37
200 98.87 98.81 98.90 98.74 98.66 98.63 98.88 91.66 92.00 92.60 91.85 91.19 90.88 91.60 200 98.87 98.81 98.90 98.74 98.66 98.63 98.88 91.66 92.00 92.60 91.85 91.19 90.88 91.60 0.21
# Examples / Class 2500 10 ORIG 75.08 91.65 84.28 INV* 91.95 92.42 SIB* 83.52 91.36 INVSIB 84.09 TMix ‡ 89.43 81.38 EDA ‡ 81.50 90.93 AEDA ‡ 92.09 81.03 92.08 67.30 ORIG 92.21 73.69 INV* 92.26 74.90 SIB* INVSIB 73.50 91.26 TMix ‡ 91.00 62.14 EDA ‡ 92.20 59.40 AEDA ‡ 64.72 91.83 # Examples / Class 2500 10 ORIG 75.08 91.65 84.28 INV* 91.95 92.42 SIB* 83.52 91.36 INVSIB 84.09 TMix の89.43 81.38 EDA の81.50 90.93 AEDA の92.09 81.03 92.08 67.30 ORIG 92.21 73.69 INV* 92.26 74.90 SIB* INVSIB 73.50 91.26 TMix の91.00 62.14 EDA の92.20 59.40 AEDA の64.72.72 0.29
# Examples / Class 2500 10 ORIG 56.24 73.18 INV* 72.53 61.39 73.37 62.47 SIB* 73.16 INVSIB 62.01 TMix ‡ 69.50 53.68 EDA ‡ 57.88 69.15 AEDA ‡ 69.91 59.51 90.02 64.70 ORIG 89.69 76.20 INV* 90.90 79.74 SIB* INVSIB 75.04 88.24 TMix ‡ 88.29 62.45 EDA ‡ 89.07 67.37 AEDA ‡ 88.63 72.61 Table 4: RQ1 accuracy comparison for INV*, SIB*, and INVSIB against baselines ORIG, TMix (Chen et al , 2020a), EDA (Wei and Zou, 2019), AEDA (Karimi et al , 2021). # Examples / Class 2500 10 ORIG 56.24 73.18 INV* 72.53 61.39 73.37 62.47 SIB* 73.16 INVSIB 62.01 TMix シュ 69.50 53.68 EDA シュ 57.88 69.15 AEDA シュ 69.91 59.51 90.02 64.70 ORIG 89.69 76.20 INV* 90.90 79.74 SIB* INVSIB 75.04 88.24 TMix シュ 88.29 62.45 EDA シュ 89.07 67.37 AEDA 88.63 72 表 461 表 4Q: InV*, SIB*, InV*, InV*, InV*, InCIG, InCIG, TMA (Ci, TMa, EKari, EKari)
訳抜け防止モード: #例 / class 2500 10 orig 56.24 73.18 inv * 72.53 61.39 73.37 62.47 sib * 73.16 invsib 62.01 tmix 57.88 69.15 aeda 69.91 59.51 90.02 64.70 orig 89.69 76.20 inv * 90.90 79.74 sib * invsib 75.04 88.24 tmix 88.29 62.45 eda 89.07 67.37 aeda 88.63 72.61 table 4 : rq1 accuracy comparison for inv *, sib *, and invsib ベースラインである orig, tmix (chen et al, 2020a) に対抗する。 eda (wei and zou, 2019)、aeda (karimi et al, 2021)。
0.58
An asterisk (*) indicates the best performance observed across underlying T P s of each kind, while a ‡ indicates related works for comparison. asterisk (*) は各種類の下位 t p s で観測される最高の性能を示し、 s は比較のための関連する作品を示す。 0.84
Transform αSentMix αTextMix RandomCharInsert TextMix Concept2Sentence AddPositiveLink AddNegativeEmoji SentMix ExpandContractions RandomCharSubst Transform αSentMix αTextMix RandomCharInsert TextMix Concept2Sentence AddPositiveLink AddNegativeEmoji SentMix ExpandContractions RandomCharSubst 0.44
Type SIB SIB INV SIB INV INV / SIB INV / SIB SIB INV INV タイプSIB INV/SIB INV/SIB SIB INV 0.26
+4.26 +3.55 +3.55 +3.22 +2.70 +2.48 +2.45 +2.33 +2.15 +2.06 +4.26 +3.55 +3.55 +3.22 +2.70 +2.48 +2.45 +2.33 +2.15 +2.06 0.16
200 69.77 69.21 70.10 67.75 69.03 68.03 67.37 86.96 86.94 87.65 87.04 86.94 86.45 86.56 200 69.77 69.21 70.10 67.75 69.03 68.03 67.37 86.96 86.94 87.65 87.04 86.94 86.45 86.56 0.21
Avg ∆ (%) (a) AG News avg (%) (a)AGニュース 0.46
(b) DBpedia (b)DBpedia 0.40
Table 5: Top ten individual transforms over a notransform baseline averaged across all datasets. 表5: トップ10は、すべてのデータセットの平均値であるnotransformベースライン上で変換される。 0.63
The INV / SIB types were SIB for the sentiment analysis datasets and INV for the topic classification datasets. INV/SIB型は感情分析データセットのSIB型とトピック分類データセットのINV型であった。 0.80
See Table 11 in the Appendix for more details. 詳細はAppendixのテーブル11を参照してください。 0.88
expensive human labeling and judgements. 高価な人間のラベルと判断 0.74
Tests which lie outside the expected input distribution are not likely to be fair nor actionable. 期待される入力分布の外にあるテストは、公正で、実行可能なものではない。 0.67
Since SIB transforms generally perturb data more aggressively than INV ones, they likewise possess more potential for creating unreasonable, out-of-domain tests of model quality. SIB は一般に INV よりも摂動データを積極的に変換するため、モデル品質のドメイン外テストを作成する可能性も高い。 0.77
However, the positive results in RQ1 may justify the use of SIB transformations as reasonable for testing. しかし、rq1の正の結果は、sib変換をテストに適していると正当化することができる。 0.58
Had the newly transformed data truly belonged to a different distribution, model performance on the in-domain test set should have decreased as a result of dataset shift (Quiñonero-Candela et al , 2009; Hu et al , 2022). 新たに変換されたデータが本当に異なる分布に属していた場合、データセットシフトの結果、ドメイン内テストセットのモデル性能が低下したはずだ(Quiñonero-Candela et al , 2009; Hu et al , 2022)。 0.75
In fact, we observed the opposite as model performance was consistently improved. 実際、モデルの性能が一貫して改善されるにつれて、その逆が観察された。 0.53
This suggests that SIB transforms yield data that is tenably indomain and therefore may complement INV transforms in exposing defective model behavior. このことは、SIBが安定に非ドメインである収率データを変換し、それゆえ、欠陥モデル挙動を露呈する際にINV変換を補完する可能性があることを示唆している。 0.49
We theorize that 私たちはそれを理論化する 0.34
the effectiveness of SIBgenerated tests comes from the expanded objectives it permits. SIB生成テストの有効性は、それが許容する拡張目的に由来する。 0.64
For example, TTextMix assess whether the 例えば、TTextMixは、 0.44
(c) Yahoo! Answers (c)yahoo! answers 0.40
(d) IMDB (e) Amazon Polarity (d)IMDB (e)アマゾンの極性 0.60
(f) Yelp Polarity (f)Yelpの極性 0.70
Figure 4: RQ2 defect detection comparison. 図4: RQ2 欠陥検出の比較。 0.85
Percentages show change in accuracy relative to TORIG. パーセントの精度はTORIGと比較して変化している。 0.57
Lower accuracy indicates greater efficacy at inducing error. 精度が低いとエラーを誘発する効果が高くなる。 0.58
model can recognize which classes are present and to what degree. モデルはどのクラスが存在し どの程度かを認識することができます 0.73
TSentMix does the same but further scrutinizes long-range comprehension by broadly distributing related topic sentences. TSentMixも同様だが、関連するトピック文を広く配布することで、長距離理解をさらに精査する。 0.59
Datasets with lengthy inputs are particularly vulnerable to transformations of this kind. 長い入力を持つデータセットは、この種の変換に対して特に脆弱である。 0.61
Lastly, TWordMix forces the model to forgo reliance on text structure and evaluates keyword comprehension amidst noisy contexts. 最後に、twordmixはモデルにテキスト構造への依存を断念させ、ノイズの多いコンテキストの中でキーワード理解を評価する。 0.55
In contrast, most INV transformations involve minor changes — e g expand contractions — and test the aspect of language already well modeled from extensive pre-training. 対照的に、ほとんどのinv変換は、縮小の拡大など、小さな変更を伴い、広範囲な事前学習からモデル化された言語の側面をテストする。 0.55
The INV C2S transform is an exception that drastically alters input and thus reveals more defects than other TINV pipelines. INV C2S変換は、入力を大幅に変更し、他のTINVパイプラインよりも多くの欠陥を明らかにする例外である。 0.65
英語(論文から抽出)日本語訳スコア
Defect Detection. Models tested with SIBtransformed data exhibited the greatest number of defects in 83% (5 out of 6) of experimental configurations. 欠陥検出 SIB変換データを用いたモデルでは,83%(6つ中5つ)に最大の欠陥が認められた。 0.62
4.5 RQ3. Adversarial Robustness For RQ3, we assess whether models trained on INV or SIB are more resilient to adversarial attacks than models trained on an original data. 4.5RQ3。 逆ロバスト性 RQ3 では、INV または SIB で訓練されたモデルが、元のデータで訓練されたモデルよりも敵攻撃に対する耐性が高いかを評価する。 0.45
An adversarial text input is typically obtained via semantic preserving (i.e. invariant) perturbations to legitimate examples in order to deteriorate the model performance. 逆テキスト入力は典型的には、モデル性能を劣化させるために、意味的保存(不変性)の摂動を正当な例に適用することで得られる。 0.60
The changes are typically generated by ascending the gradient of the loss surface with respect to the original example and improving robustness to adversarial attacks is a necessary precondition for real-world NLP deployment. 変更は通常、元の例に対して損失面の勾配を上昇させ、敵の攻撃に対する堅牢性を改善することが実際のnlp展開に必要な前提条件である。 0.64
We select three attack algorithms based on their popularity and effectiveness: (1) TextFooler (Jin et al , 2019), (2) DeepWordBug (Gao et al , 2018), and (3) TextBugger (Li et al , 2018), all as implemented in TextAttack (Morris et al , 2020). その人気と有効性に基づいて,(1)textfooler (jin et al , 2019), (2) deepwordbug (gao et al , 2018), (3) textbugger (li et al , 2018) の3つの攻撃アルゴリズムをtextattack (morris et al , 2020) で実装した。 0.68
We focus on models trained with 10 examples per class because the largest changes in generalization performance are more likely to exhibit the clearest trend for adversarial robustness. 一般化性能の最大の変化は、対向的堅牢性の最も明確な傾向を示す可能性が高いため、クラス毎に10の例で訓練されたモデルに焦点を当てる。 0.64
For each of 11 models and 3 attacks, we randomly sample 100 inputs from the original data and perturb them to create a total of 3,300 adversarial examples. 11のモデルと3の攻撃それぞれに対して、元のデータから100の入力をランダムにサンプリングし、それらを摂動させ、合計3300の敵のサンプルを作成します。
訳抜け防止モード: 11のモデルと3の攻撃それぞれに対して、元のデータからランダムに100の入力をサンプリングする。 総じて3300の敵の例を作ります
0.77
Table 6 shows that, of all the cases where adversarial robustness is improved over TORIG, 92% of them involve SIB. 表6は、TORIGよりも敵の堅牢性が向上した全てのケースのうち、92%がSIBを含んでいることを示している。 0.61
On average, SIB*-trained models improve robustness by 4%, while INV*-trained models sustain a 1% decrease. 平均すると、SIB*訓練モデルではロバスト性は4%向上し、INV*訓練モデルは1%低下する。 0.73
Topic classification is made more robust via training with augmented data. トピック分類は、拡張データによるトレーニングによってより堅牢になる。 0.66
Consistently, Tα-SentMix produces the most resilient models. 対照的に、Tα-SentMixは最も回復力のあるモデルを生成する。 0.41
For sentiment analysis, improved generalization performance enabled by SIB does not necessarily lead to improved robustness to existing adversarial attacks. 感情分析では、SIBによる一般化性能の向上が、既存の敵攻撃に対する堅牢性の向上につながるとは限らない。 0.56
The underlying sentiment models trained with augmented data improves generalization over TORIG by an average of 5%. 強化データでトレーニングされた根底にある感情モデルは、TORIGに対する一般化を平均5%改善する。 0.67
However, counter-intuitively, the models are not more robust to the three attacks than TORIG and that Pearson correlation is -0.28 between accuracy and adversarial robustness. しかし、そのモデルがTORIGよりも3つの攻撃に対してより堅牢ではなく、Pearsonの相関は -0.28 である。
訳抜け防止モード: しかし、カウンター - 直感的には。 モデルはTORIGより3つの攻撃に 耐えられません Pearsonの相関は -0.28 である。
0.70
This finding motivates future work to investigate why there is a negative correlation and how to design SIB such that accuracy improvement also translates to corresponding adversarial robustness. この発見は、なぜ負の相関関係があるのか、またSIBを設計する方法を研究するために将来の研究を動機付けている。 0.51
Adversarial Robustness. Of all the experimental configurations where adversarial robustness was improved over the notransform baseline, 92% (11 out of 12) of them involved models trained on SIBaugmented data. 敵意の強固さ。 逆方向のロバスト性を非変換ベースラインで改善した全ての実験構成のうち、92%(11)はSIBaugmentedデータでトレーニングされたモデルであった。 0.58
5 Discussion How does sibylvariance help? 5 議論 sibylvariance はどのように役立つか? 0.70
The primary purpose of data transformations in ML is to diversify datasets in the neighborhood of existing points, a principle formalized as Vicinal Risk Minimization (VRM) (Chapelle et al , 2001). MLにおけるデータ変換の主な目的は、既存の点付近のデータセットを多様化することであり、この原則は Vicinal Risk Minimization (VRM) として定式化されている(Chapelle et al , 2001)。 0.72
Synthetic examples can be drawn from a vicinal distribution to find similar but different points that enlarge the original data distribution. 合成の例はビクタナル分布から引き出すことができ、元のデータ分布を拡大する類似しているが異なる点を見つけることができる。
訳抜け防止モード: 合成例はビシナル分布から引き出すことができる 元のデータ分布を拡大する 類似するが 異なる点を見つけるためです
0.88
For instance, within image classification, it is common to define the vicinity of an image as the set of its random crops, axal reflections, and other label-preserving INV transforms. 例えば、画像分類において、画像の近傍をランダムな作物、軸反射、その他のラベル保存型INV変換の集合として定義することが一般的である。 0.66
While VRM can expose ML models to more diverse input space and consequently reduce generalization errors, the neighborhoods created by INV are relatively restricted. VRMはMLモデルをより多様な入力空間に公開し、したがって一般化誤差を低減することができるが、INVによって生成された近傍は比較的制限されている。 0.52
This is due to the label-preserving constraint limiting the degree of perturbation freedom on the original data. これは、元のデータに対する摂動の自由度を制限するラベル保存制約のためである。 0.78
(a) TORIG (b) TINV (a)鳥居 (b)TINV 0.27
(c) TSIB (d) TTextMix (c)TSIB (d)TTextMix 0.40
Figure 5: UMAP visualizations of BERT [CLS] tokens for SST-2. 図5:SST-2用のBERT[CLS]トークンのUMAP可視化。 0.70
Blue, red, and green represent “Negative,” “Positive,” and “Mixed”, respectively. 青、赤、緑はそれぞれ“Negative”、“Positive”、“Mixed”を表す。 0.65
SIB effectively expands the vicinity relation via transmutations and mixture mutations. SIBは、変異と混合突然変異を通じて、周辺関係を効果的に拡張する。 0.51
Newly created data can claim full or mixed membership in target classes. 新しく作成されたデータは、ターゲットクラスに完全または混合メンバシップを主張できる。 0.59
To support our intuition, we vi- 直観を支持するために、私たちはvi- 0.50
英語(論文から抽出)日本語訳スコア
Dataset AG News データセット AGニュース 0.70
Amazon Polarity TP amazon極性 TP 0.55
ORIG INV* SIB* ORIG INV* SIB* 0.42
Attack Success Rate TB TF DWB 0.69 0.56 0.54 0.48 0.56 0.66 0.45 0.43 0.60 0.57 0.62 INVSIB 0.78 0.48 0.42 0.40 ORIG 0.36 INV* 0.49 0.42 0.39 0.46 0.55 SIB* INVSIB 0.65 0.58 0.60 攻撃成功率 TB TF DWB 0.69 0.56 0.54 0.48 0.56 0.46 0.43 0.60 0.57 0.62 InVSIB 0.78 0.48 0.42 0.40 ORIG 0.36 INV* 0.49 0.42 0.39 0.46 0.55 SIB* INVSIB 0.65 0.58 0.60 0.27
Dataset DBpedia データセット DBpedia 0.52
Yelp Polarity TP Yelp 極性 TP 0.50
ORIG INV* SIB* ORIG INV* SIB* 0.42
Attack Success Rate TB TF DWB 0.92 0.55 0.64 0.76 0.48 0.47 0.41 0.40 0.77 0.52 0.56 INVSIB 0.83 0.28 0.20 0.48 ORIG INV 0.64 0.41 0.52 0.53 0.39 0.61 SIB INVSIB 0.75 0.51 0.61 攻撃成功率 TB TF DWB 0.92 0.55 0.64 0.64 0.48 0.48 0.47 0.41 0.40 0.77 0.52 0.52 0.56 InVSIB 0.83 0.28 0.20 0.48 ORIG INV 0.64 0.52 0.53 0.39 0.51 0.61 SIB INVSIB 0.75 0.51 0.61 0.23
Dataset Yahoo! Answers データセット yahoo! 答え 0.68
IMDB TP ORIG INV* SIB* IMDB TP ORIG INV* SIB* 0.43
Attack Success Rate TB TF DWB 0.54 0.46 0.52 0.49 0.49 0.57 0.41 0.48 0.49 0.46 0.44 INVSIB 0.54 0.25 0.71 0.86 ORIG INV* 0.70 0.50 0.68 0.55 0.56 0.32 SIB* INVSIB 0.89 0.79 0.88 攻撃成功率 TB TF DWB 0.54 0.46 0.52 0.49 0.49 0.51 0.41 0.48 0.49 0.46 0.46 INVSIB 0.54 0.25 0.71 0.86 ORIG INV* 0.70 0.50 0.68 0.55 0.32 SIB* INVSIB 0.89 0.79 0.88 0.27
Table 6: RQ3 adversarial robustness comparison for INV*, SIB*, and INVSIB using TextFooler (TF), DeepWordBug (DWB), and TextBugger (TB). 表6: TextFooler(TF)、DeepWordBug(DWB)、TextBugger(TB)を使用したINV*、SIB*、INVSIBのRQ3対逆ロバスト性比較。 0.75
A lower attack success rate indicates a higher adversarial robustness. 攻撃成功率の低下は、高い敵の堅牢性を示す。 0.65
sualize the effects of various transformations on SST-2 (Socher et al , 2013). SST-2(Socher et al , 2013)に対する様々な変換の効果をsalizeする。 0.79
Figure 5 presents the UMAP-reduced (McInnes et al , 2020) [CLS] tokens produced by a BERT transformer for sentiment classification. 図5は、感情分類のためのBERT変換器によって生成されたUMAP(McInnes et al , 2020)[CLS]トークンを提示する。
訳抜け防止モード: 図5は UMAP - reduce ( McInnes et al, 感性分類のためのBERT変換器によって生成される[CLS ]トークン。
0.71
Figure 5a shows that the classes are initially well separated and high performance can be obtained by selecting any separating surface between the two clusters. 図5aは、2つのクラスタ間の任意の分離面を選択することで、クラスが最初は適切に分離され、高いパフォーマンスが得られることを示している。
訳抜け防止モード: 図5aは クラスは最初はよく分離され 2つのクラスター間の分離面を選択することで高い性能を得ることができる。
0.80
However, a more reasonable choice for the best boundary is one that exhibits the largest margin between classes — the very intuition behind Support Vector Machines (Cortes and Vapnik, 1995). しかし、最良の境界に対するより合理的な選択は、クラス間の最大のマージンを示すものである ― Support Vector Machines (Cortes and Vapnik, 1995) の背後にある直感である。 0.81
Figure 5d suggests that a model trained on mixture mutations is likely to arrive at a boundary with the lowest loss. 図5dは、混合突然変異に基づいて訓練されたモデルが、最低損失のバウンダリに到達することを示唆している。
訳抜け防止モード: 図5dは 混合突然変異に基づいて訓練されたモデルは、最も損失の少ない境界に到達する可能性が高い。
0.67
For example, in 5d, the augmented examples in green provide additional loss feedback from uncovered portions of the input space to encourage a decision boundary that maximizes the margin between class clusters. 例えば5dでは、グリーンの強化された例が入力空間の露見した部分から追加の損失フィードバックを提供し、クラスクラスタ間のマージンを最大化する決定バウンダリを促進する。 0.70
A similar expectation may hold for SIB in Figure 5c. 同様の予想は図5cのSIBにも当てはまる。 0.74
However, the effects of INV transforms shown in Figure 5b do not appear to support such margin maximization. しかし、図5bに示すINV変換の効果は、そのようなマージンの最大化をサポートしていないように見える。 0.48
Threats to Validity. External threats to validity include the generalization of our results to model architectures dissimilar to BERT (i.e. bert-base-uncased). 正当性への脅威。 妥当性に対する外部の脅威には、BERT(bert-base-uncas ed)と異なるモデルアーキテクチャに対する結果の一般化が含まれる。 0.44
It is possible that larger autoencoder models like RoBERTa (Liu et al , 2019) and auto-regressive models like XLNet (Yang et al , 2019) may respond differently to SIB transformations. RoBERTa (Liu et al , 2019) のような大規模なオートエンコーダモデルや XLNet (Yang et al , 2019) のような自動回帰モデルは、SIB変換に対して異なる反応を示す可能性がある。 0.71
Secondly, while the framework of sibylvariance is applicable to all data types, we have only provided empirical results supporting their efficacy for text classification models. 第2に,シビル分散の枠組みはすべてのデータ型に適用できるが,テキスト分類モデルの有効性を実証した結果しか得られていない。 0.71
We leave the exploration of SIB applications to image, time series, and other domains to future work. SIBアプリケーションの探索は、画像、時系列、その他の領域を将来の作業に任せます。 0.71
Internal threats include how we derived mixed labels for generated text. 内部的な脅威には、生成されたテキストに対する混合ラベルの導出方法が含まれる。 0.50
We assumed that the critical semantics can be approximated via the ratio of words contributed by source text. 批判的意味論はソーステキストに寄与した単語の比率で近似できると仮定した。 0.72
This assumption may not account for other linguistic interaction and thus could lead to suboptimal labels. この仮定は他の言語的相互作用を考慮せず、したがって準最適ラベルにつながる可能性がある。 0.56
However, SIB did significantly improve upon the INV and the しかし、SIB は INV と INV を著しく改善した。 0.78
ORIG baselines in the RQ1 generalization study, suggesting that the constructed soft labels still reflected useful semantics. ORIGはRQ1一般化研究のベースラインであり、構築されたソフトラベルが有用セマンティクスを反映していることを示唆している。 0.50
This indirectly supports the validity of SIB-transformed data for testing in RQ2, although we acknowledge that additional caution is required for using any aggressively modified, synthetic data as a substitute for real data for the purpose of exposing defective model behavior. これは、RQ2におけるテストのためのSIB変換データの有効性を間接的に支援するが、欠陥モデル行動の露見を目的とした実データの代わりに、アグレッシブに修正された合成データを使用することには、さらなる注意が必要であることを認めている。 0.62
6 Related Work In this section, we broadly cover data transformations within and outside of the text domain because our proposed framework for sibylvariance is applicable to all classification contexts. 6 関連作業 本節では、提案するsibylvarianceフレームワークがすべての分類コンテキストに適用できるため、テキストドメイン内外におけるデータ変換を広くカバーする。 0.77
Data Augmentation. Effective data augmentation is a key factor enabling superior model performance on a wide range of tasks (Krizhevsky et al , 2012; Jiang et al , 2018; Xie et al , 2019). データ拡張。 効果的なデータ拡張は、幅広いタスクにおいて優れたモデルパフォーマンスを実現する重要な要因である(Krizhevsky et al , 2012; Jiang et al , 2018; Xie et al , 2019)。 0.79
In many cases, practitioners leverage domain knowledge to reinforce critical invariances in the underlying data. 多くの場合、実践者はドメイン知識を利用して基礎となるデータにおける重要な不変性を補強する。 0.53
In computer vision, for example, translation invariance is the idea that no matter where the objects of interest reside within an image, the model will still classify them correctly. 例えば、コンピュータビジョンでは、翻訳不変性(translation invariance)とは、興味のある物体が像の中にどこにあっても、モデルはそれらを正しく分類するという考えである。 0.66
Image translations and random crops encourage this more generalized conceptualization within the model (Simard et al , 1998) and all other transforms have a similar goal: reinforce a particular invariance that helps the learner perform well on future unseen data. 画像翻訳とランダムな作物は、モデル内のこのより一般化された概念化を促進する(Simard et al , 1998)。
訳抜け防止モード: 画像翻訳とランダムな作物はモデル内のより一般化された概念化を促進する(Simard et al, 1998)。 他の変換にも同じような目標があります 学習者が将来の見当たらないデータに対してうまく振る舞うのに役立つ特定の不変性を補強する。
0.63
Numerous techniques have been proposed to assist with this learning objective and thereby improve generalization. この学習を補助し、一般化を改善するために多くの技術が提案されている。
訳抜け防止モード: 数多くの技術が提案されている この学習目標を支援し 一般化を向上させるのです
0.66
Random erasing (Zhong et al , 2017; Devries and Taylor, 2017) and noise injection (Wen et al , 2020; Xie et al , 2019) support invariance to occlusions and promote robust features. ランダム消去(Zhong et al , 2017; Devries and Taylor, 2017)とノイズ注入(Wen et al , 2020; Xie et al , 2019)は、閉塞に対する不変性をサポートし、堅牢な機能を促進する。 0.79
Interpolating (Bowyer et al , 2011) and extrapolating (DeVries and Taylor, 2017) nearest neighbors in the input / feature space reinforces a linear relationship between the newly created data and the supervision signal while reducing class imbalance. 入力/特徴空間における補間(Bowyer et al , 2011)と外挿(DeVries and Taylor, 2017)は、クラス不均衡を低減しつつ、新たに作成されたデータと監視信号の間の線形関係を強化する。 0.86
However, nearly all of these approaches, and many others (Shorten and Khoshgoftaar, 2019; しかし、これらのアプローチのほとんどすべて、その他多くのアプローチ(ShortenとKhoshgoftaar, 2019)。 0.71
英語(論文から抽出)日本語訳スコア
Feng et al , 2021), are label-preserving and therefore limited in their capacity to induce deeper learning of invariant concepts. Feng et al , 2021) はラベル保存であり、不変概念の深い学習を促す能力に制限がある。 0.71
Sibylvariant transforms enjoy several desirable aspects of INV transformations while mitigating their drawbacks. シビン変態変換は、その欠点を緩和しながら、INV変換のいくつかの望ましい側面を享受する。 0.45
Similar to feature space functions (DeVries and Taylor, 2017), mixture mutations do not require significant domain knowledge. 特徴空間関数 (DeVries and Taylor, 2017) と同様に、混合突然変異は重要なドメイン知識を必要としない。 0.73
Like approaches that reduce dataset imbalance (Bowyer et al , 2011), SIB transforms can increase class representation through mixed membership or targeted transmutations that inherit diverse characteristics of the source inputs. データセットの不均衡を低減するアプローチ(Bowyer et al , 2011)のように、SIB変換は、ソース入力の多様な特性を継承する混合メンバシップやターゲット変換を通じてクラス表現を向上させることができる。 0.68
In all cases, relaxing the labelpreserving constraint enables SIB functions to both complement and enhance the learning of critical invariances by further expanding the support of the dataset in new directions. いずれの場合も、ラベル保存制約を緩和することで、SIB関数は、新しい方向にデータセットのサポートをさらに拡大することにより、重要な不変性の学習を補完し、促進することができる。
訳抜け防止モード: いずれにしても。 ラベル保存制約を緩和する SIB関数は、臨界不変性の学習を補完し、促進することができる データセットのサポートをさらに拡大します
0.76
Adversarial Attacks & Robustness. 敵の攻撃とロバスト性。 0.53
Adversarial attacks are a special class of INV transformations that simultaneously minimize perturbations to the input while maximizing the perception of change to a learner. 敵対的攻撃は、学習者に対する変化の知覚を最大化しながら、入力に対する摂動を同時に最小化する、INV変換の特殊なクラスである。 0.54
This task is more difficult within the NLP domain due to the discrete nature of text, but several works (Alzantot et al , 2018; Zhang et al , 2020) have proven successful at inducing model errors. このタスクはテキストの離散的な性質のためにNLPドメイン内では難しいが、いくつかの研究(Alzantot et al , 2018; Zhang et al , 2020)はモデルエラーの誘発に成功した。 0.82
Real-world use of NLP requires resilience to such attacks and our work complements robust training (Parvez et al , 2018) and robust certification (Ye et al , 2020; Pruksachatkun et al , 2021) to produce more reliable models. NLPの実際の使用にはこのような攻撃に対するレジリエンスが必要であり、我々の作業はより信頼性の高いモデルを作成するための堅牢なトレーニング(Parvez et al , 2018)と堅牢な認定(Ye et al , 2020; Pruksachatkun et al , 2021)を補完する。 0.70
Emerging Sibylvariant Transforms. Emerging Sibylvariant Transforms 0.31
Specific transformations designed to alter the expected class of an input have existed prior to this work (Zhang et al , 2017; Yun et al , 2019; Guo, 2020; Zhu et al , 2017), albeit primarily in the image domain and also in a more isolated, ad hoc fashion. 入力の期待クラスを変更するように設計された特定の変換(Zhang et al , 2017; Yun et al , 2019; Guo, 2020; Zhu et al , 2017)は、主に画像領域と、より孤立したアドホックな方法で存在する。
訳抜け防止モード: この研究以前には、入力の期待クラスを変更するように設計された特定の変換(Zhang et al)があった。 2017年、Yun et al, 2019年、Guo, 2020年、Zhu et al, 2017年) 主にイメージドメインと、より孤立したアドホックな方法でもあります。
0.78
Among our primary contributions is to propose a unifying name, framework, and taxonomy for this family of sibylvariant functions. 我々の主な貢献は、このシビル変種関数の族に対する統一的な名前、枠組み、分類の提案である。 0.66
Furthermore, most prior works introduce a single transformation and evaluate its efficacy on training alone. さらに、ほとんどの先行研究は単一のトランスフォーメーションを導入し、トレーニングのみの有効性を評価している。 0.58
In contrast, we proposed several novel transformations, a new adaptive training routine, and evaluated the broader impacts of 41 INV and SIB transforms on training, defect detection, and robustness simultaneously. 一方,本研究では,新しい適応トレーニングルーチンである新しい変換を提案し,41 INVおよびSIB変換がトレーニング,欠陥検出,堅牢性に与える影響を同時に評価した。 0.87
Recently published examples of SIB mixture mutations for text (Guo et al , 2019; Chen et al , 2020a) differ from ours in several important ways. 最近発表されたテキスト用SIB混合変異(Guo et al , 2019; Chen et al , 2020a)は、いくつかの重要な方法で我々のものと異なる。 0.69
Prior work operates exclusively within the hidden space inside specific models, which limits transferability between different algorithm types. 以前の作業は特定のモデル内の隠れた空間内でのみ動作し、異なるアルゴリズムタイプ間の転送可能性を制限する。 0.67
All of our transformations operate in the input space, which is both more general and more challenging because we have to contend with rules of grammar and style. 私たち全員 変換は入力空間で動作しますが、文法やスタイルのルールと競合する必要があるため、より一般的かつより困難です。 0.72
However, this also provides greater transparency. しかし、これは透明性も増す。 0.68
Furthermore, because our overall approach samples from 41 different transformations, we are able to exercise a broader range of model behaviors. さらに、41の異なるトランスフォーメーションから全体的なアプローチをサンプルするので、幅広いモデルの振る舞いを実行できるのです。 0.66
For example, SentMix is designed to encourage longrange understanding, while other transforms evoke their own specific objectives. 例えば、sendmixは長距離の理解を促進するように設計されているが、他の変換は独自の目的を呼び起こす。
訳抜け防止モード: 例えば、sendmixは 長距離の理解を促進する一方で、他のトランスフォーメーションは独自の目的を喚起する。
0.61
Any individual transformation is inherently more limited, e g TMix can only encourage the model to behave linearly for borderline cases. 個々の変換は本質的に制限され、例えば TMix はモデルが境界線の場合に対して線形に振る舞うことを奨励することができる。 0.62
7 Conclusion Inspired by metamorphic testing, we proposed the notion of sibylvariance to jointly transform both input and output class (Xi, yi) pairs in a knowable way. 7) メタモルフィックテストに触発され, 入力クラスと出力クラス(xi, yi)のペアを共に理解可能な方法で変換するためのsibylvarianceの概念を提案した。 0.73
To explore the potential of sibylvariance, we define 18 new text transformations and adapt 23 existing transformations into an open source tool called Sybil. sibylvarianceの可能性を探るため、18の新しいテキスト変換を定義し、23の既存の変換をsybilと呼ばれるオープンソースツールに適応させる。 0.66
In particular, we define several types of mixture mutations and design a novel concept-based text transformation technique utilizing salience attribution and neural sentence generation. 特に,複数種類の混合突然変異を定義し,サリエンス属性とニューラル文生成を利用した新しい概念に基づくテキスト変換手法を設計する。 0.77
Across six benchmarks from two different NLP classification tasks, we systematically assess the effectiveness of INV and SIB for generalization performance, defect detection, and adversarial robustness. 2つの異なるNLP分類タスクから得られた6つのベンチマークで、一般化性能、欠陥検出、対向ロバスト性に対するINVとSIBの有効性を体系的に評価した。 0.63
Our extensive evaluation shows that many SIB transforms, and especially the adaptive mixture mutations, are extremely effective. 広範囲な評価の結果,多くのSIB変換,特に適応混合変異は極めて有効であることがわかった。 0.74
SIB achieves the highest training accuracy in 89% of the experimental configurations. sibは実験構成の89%で最高のトレーニング精度を達成している。 0.68
When used for testing, SIB test suites reveal the greatest number of model defects in 5 out of 6 benchmarks. テストに使用すると、SIBテストスイートは6つのベンチマークのうち5つで最大のモデル欠陥を明らかにします。 0.66
Finally, models trained on SIB-augmented data improve adversarial robustness 11× more often than those trained on INV-augmented data. 最後に、SIB強化データでトレーニングされたモデルは、INV強化データでトレーニングされたモデルよりも11倍頻繁に対向ロバスト性を向上させる。 0.45
Acknowledgements This work is supported in part by National Science Foundations via grants CCF-2106420, CCF2106404, CNS-2106838, CCF-1764077, CHS1956322, CCF-1723773, ONR grant N00014-18-12037, Intel CAPA grant, Samsung, and a CISCO research contract. 認定 CCF-2106420, CCF2106404, CNS-2106838, CCF-1764077, CHS 1956322, CCF-1723773, ONR grant N00014-18-12037, Intel CAPA grant, Samsung, CISCO Research Contractを通じて,National Science Foundationsが部分的にサポートしている。 0.78
We would also like to thank Atharv Sakhala for early contributions to the Sybil project as well as Jason Teoh, Sidi Lu, Aaron Hatrick, Sean Gildersleeve, Hannah Pierce, and all the anonymous reviewers for their many helpful suggestions. また、Sybilプロジェクトへの初期の貢献に対して、Atharv Sakhala氏、Jason Teoh氏、Sidi Lu氏、Aaron Hatrick氏、Sean Gildersleeve氏、Hannah Pierce氏、およびすべての匿名レビュアーに感謝します。
訳抜け防止モード: また、Sybilプロジェクトへの初期のコントリビューションとJason Teoh氏に、Atharv Sakhala氏に感謝します。 Sidi Lu, Aaron Hatrick, Sean Gildersleeve, Hannah Pierce そして、匿名のレビュアーは、多くの有益な提案をしました。
0.78
英語(論文から抽出)日本語訳スコア
References Moustafa Alzantot, Yash Sharma, Ahmed Elgohary, Bo-Jhang Ho, Mani B. Srivastava, and Kai-Wei Chang. 参照:Moustafa Alzantot、Yash Sharma、Ahmed Elgohary、Bo-Jhang Ho、Mani B. Srivastava、Kai-Wei Chang。
訳抜け防止モード: Moustafa Alzantot, Yash Sharma, Ahmed Elgohary, Bo-Jhang Ho, Mani B. Srivastava, and Kai - Wei Chang
0.43
2018. Generating natural language adversarial examples. 2018. 自然言語の逆例を生成する。 0.54
CoRR, abs/1804.07998. CoRR, abs/1804.07998。 0.30
E. Barr, M. Harman, P. McMinn, M. Shahbaz, and Shin Yoo. e・バー、m・ハーマン、p・マクミン、m・シャーバズ、シン・ヨー。 0.49
2015. The oracle problem in software testing: A survey. 2015. ソフトウェアテストにおけるオラクルの問題: 調査。 0.61
IEEE Transactions on Software Engineering, 41:507–525. IEEE Transactions on Software Engineering, 41:507–525。 0.38
Kevin W. Bowyer, Nitesh V. Chawla, Lawrence O. Hall, and W. Philip Kegelmeyer. Kevin W. Bowyer、Nitesh V. Chawla、Lawrence O. Hall、W. Philip Kegelmeyer。 0.42
2011. SMOTE: synthetic minority over-sampling technique. 2011. SMOTE: 合成マイノリティオーバーサンプリング技術。 0.54
CoRR, abs/1106.1813. corr、abs/1106.1813。 0.41
Olivier Chapelle, Jason Weston, Léon Bottou, and Vladimir Vapnik. オリヴィエ・チャペル、ジェイソン・ウェストン、レオン・ボトウ、ウラジーミル・ヴァプニク。 0.60
2001. Vicinal risk minimization. 2001. リスク最小化。 0.51
In Advances in Neural Information Processing Systems, volume 13. ニューラル・インフォメーション・プロセッシング・システム (neural information processing system) における第13巻。 0.57
MIT Press. Jiaao Chen, Zichao Yang, and Diyi Yang. mitプレス。 Jiaao Chen、Zichao Yang、Diyi Yang。 0.51
2020a. Mixtext: Linguistically-infor med interpolation of hidden space for semi-supervised text classification. 2020年。 mixtext: 半教師付きテキスト分類のための隠れ空間の言語的不定補間。 0.70
CoRR, abs/2004.12239. CoRR, abs/2004.12239。 0.59
T. Chen, S. Cheung, and S. Yiu. T. Chen、S. Cheung、S. Yiu。 0.88
2020b. Metamorphic testing: A new approach for generating next test cases. 2020年。 メタモルフィックテスト: 次のテストケースを生成するための新しいアプローチ。 0.76
ArXiv, abs/2002.12543. ArXiv, abs/2002.12543 0.34
Corinna Cortes and Vladimir Vapnik. コリンナ・コルテスとウラジーミル・ヴァプニク 0.64
1995. Supportvector networks. 1995. サポートベクターネットワーク。 0.60
Machine learning, 20(3):273–297. 機械学習、20(3):273-297。 0.79
Ekin D. Cubuk, Barret Zoph, Jonathon Shlens, and Quoc V. Le. Ekin D. Cubuk, Barret Zoph, Jonathon Shlens, Quoc V. Le 0.40
2019. Randaugment: Practical data CoRR, augmentation with no separate search. 2019. Randaugment: 実用的なデータCoRR、個別の検索のない拡張。 0.57
abs/1909.13719. abs/1909.13719。 0.46
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 0.38
2018. BERT: pre-training of deep bidirectional transformers for language understanding. 2018. BERT: 言語理解のための双方向トランスフォーマーの事前トレーニング。 0.59
CoRR, abs/1810.04805. CoRR, abs/1810.04805。 0.29
Terrance DeVries and Graham W. Taylor. テラス・デヴリーズとグラハム・w・テイラー。 0.48
2017. Dataset augmentation in feature space. 2017. 特徴空間におけるデータセット拡張。 0.56
Terrance Devries and Graham W. Taylor. テラス・デヴリーズとグラハム・w・テイラー。 0.48
2017. Improved regularization of convolutional neural networks with cutout. 2017. 切断による畳み込みニューラルネットワークの正則化の改善 0.61
CoRR, abs/1708.04552. corr、abs/1708.04552。 0.37
Steven Y. Feng, Varun Gangal, Jason Wei, Sarath Chandar, Soroush Vosoughi, Teruko Mitamura, and Eduard Hovy. Steven Y. Feng, Varun Gangal, Jason Wei, Sarath Chandar, Soroush Vosoughi, Teruko Mitamura, Eduard Hovy
訳抜け防止モード: スティーブン・y・フェン、ヴァーン・ガンガル、ジェイソン・ウェイ、サラス・チャンダール soroush vosoughi氏、teruko mitamura氏、eduard hovy氏。
0.52
2021. A survey of data augmentation approaches for nlp. 2021. nlpのデータ拡張アプローチに関する調査 0.49
Ji Gao, Jack Lanchantin, Mary Lou Soffa, and Yanjun Qi. Ji Gao、Jack Lanchantin、Mary Lou Soffa、Yanjun Qi。 0.70
2018. Black-box generation of adversarial text sequences to evade deep learning classifiers. 2018. 深層学習分類器回避のための逆文列のブラックボックス生成 0.53
CoRR, abs/1801.04354. CoRR, abs/1801.04354。 0.30
Hongyu Guo. 2020. ホンユ・グオ。 2020. 0.39
Nonlinear mixup: Out-ofmanifold data augmentation for text classification. 非線形混合:テキスト分類のための外部データ拡張。 0.71
In AAAI. Hongyu Guo, Yongyi Mao, and Richong Zhang. AAAI所属。 ホンユ・グオ、ヨンギ・マオ、リチョン・チャン。 0.47
2019. Augmenting data with mixup for sentence classification: An empirical study. 2019. 文分類のためのミックスアップによるデータ拡張:実証的研究 0.57
CoRR, abs/1905.08941. CoRR, abs/1905.08941。 0.58
Dan Hendrycks and Kevin Gimpel. ダン・ヘンドリックスとケビン・ギンペル 0.42
2016. Bridging nonlinearities and stochastic regularizers with gaussian error linear units. 2016. ガウス誤差線形単位を持つ非線形性と確率正規化子 0.58
CoRR, abs/1606.08415. CoRR, abs/1606.08415。 0.29
Qiang Hu, Yuejun Guo, Maxime Cordy, Xiaofei Xie, Lei Ma, Mike Papadakis, and Yves Le Traon. Qiang Hu, Yuejun Guo, Maxime Cordy, Xiaofei Xie, Lei Ma, Mike Papadakis, Yves Le Traon
訳抜け防止モード: Qiang Hu, Yuejun Guo, Maxime Cordy, Xiaofei Xie レイ・マ(Lei Ma)、マイク・パパダキス(Mike Papadakis)、イヴ・ル・トラオン(Yves Le Traon)。
0.65
2022. An empirical study on data distribution-aware test selection for deep learning enhancement. 2022. 深層学習向上のためのデータ分布認識テスト選択に関する実証的研究 0.60
Yu Jiang, Vivek Natarajan, Xinlei Chen, Marcus Rohrbach, Dhruv Batra, and Devi Parikh. Yu Jiang, Vivek Natarajan, Xinlei Chen, Marcus Rohrbach, Dhruv Batra, Devi Parikh。 0.36
2018. Pythia v0.1: the winning entry to the VQA challenge 2018. 2018. Pythia v0.1: 2018年のVQAチャレンジで優勝。 0.63
CoRR, abs/1807.09956. corr、abs/1807.09956。 0.39
Di Jin, Zhijing Jin, Joey Tianyi Zhou, and Peter Szolovits. ジ・ジン、ジジン・ジン、ジョーイ・ティアニー・周、ピーター・スゾロヴィッツ。 0.46
2019. Is BERT really robust? 2019. BERTは本当に堅牢か? 0.58
natural language attack on text classification and entailment. テキストの分類と包含に対する自然言語攻撃。 0.86
CoRR, abs/1907.11932. corr、abs/1907.11932。 0.42
Akbar Karimi, Leonardo Rossi, and Andrea Prati. アクバル・カリミ、レオナルド・ロッシ、アンドレア・プラティ。 0.49
2021. AEDA: an easier data augmentation technique for text classification. 2021. aeda: テキスト分類のためのより簡単なデータ拡張テクニック。 0.59
CoRR, abs/2108.13230. CoRR, abs/2108.13230。 0.30
Diederik P. Kingma and Jimmy Ba. ディデリック・P・キングマとジミー・バ 0.45
2014. Adam: A method for stochastic optimization. 2014. Adam: 確率最適化の方法です。 0.56
Cite arxiv:1412.6980Comme nt: Published as a conference paper at the 3rd International Conference for Learning Representations, San Diego, 2015. Cite arxiv:1412.6980Comme nt: 2015年、サンディエゴで開催された第3回国際学習表現会議の会議で発表された。 0.69
Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Alex Krizhevsky、Ilya Sutskever、Geoffrey E Hinton。 0.33
2012. Imagenet classification with deep convolutional neural networks. 2012. 深部畳み込みニューラルネットワークを用いた画像ネット分類 0.63
In Advances in Neural Information Processing Systems, volume 25. ニューラル情報処理システムの進歩, 第25巻 0.53
Curran Associates, Inc. Curran Associates, Inc. 0.42
Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Veselin Stoyanov, and Luke Zettlemoyer. Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Veselin Stoyanov, Luke Zettlemoyer。 0.39
2019. BART: denoising sequence-to-sequence pretraining for natural language generation, translation, and comprehension. 2019. BART: 自然言語の生成、翻訳、理解のためのシーケンス・ツー・シーケンスの事前学習。 0.50
CoRR, abs/1910.13461. corr、abs/1910.13461。 0.41
Jinfeng Li, Shouling Ji, Tianyu Du, Bo Li, and Ting Textbugger: Generating adversarCoRR, Jinfeng Li, Shouling Ji, Tianyu Du, Bo Li, Ting Textbugger: Generating adversarCoRR, 0.39
text against real-world applications. 現実世界のアプリケーションに対するテキスト。 0.61
Wang. 2018. Wang 2018. 0.34
ial abs/1812.05271. ial abs/1812.05271。 0.26
Bill Yuchen Lin, Ming Shen, Yu Xing, Pei Zhou, and Xiang Ren. ビル・ユーチェン・リン、ミン・シェン、ユー・シン、ピー・周、チャン・レン。 0.40
2019. Commongen: A constrained text generation dataset towards generative commonsense reasoning. 2019. Commongen: 生成コモンセンス推論のための制約付きテキスト生成データセット。 0.57
CoRR, abs/1911.03705. CoRR, abs/1911.03705。 0.30
Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov。
訳抜け防止モード: yinhan liu, myle ott, naman goyal, jingfei du, マンダー・ジョシ、ダンチー・チェン、オマー・レヴィ、マイク・ルイス ルーク・ゼトルモイヤー(luke zettlemoyer)とヴェセリン・ストヤノフ(veslin stoyanov)。
0.61
2019. Roberta: A robustly optimized BERT pretraining approach. 2019. Roberta: 堅牢に最適化されたBERT事前トレーニングアプローチです。 0.51
CoRR, abs/1907.11692. CoRR、abs/1907.11692。 0.54
Andrew L. Maas, Raymond E. Daly, Peter T. Pham, Dan Huang, Andrew Y. Ng, and Christopher Potts. Andrew L. Maas、Raymond E. Daly、Peter T. Pham、Dan Huang、Andrew Y. Ng、Christopher Potts。 0.86
2011. Learning word vectors for sentiment analysis. 2011. 感情分析のための単語ベクトルの学習 0.60
In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, pages 142–150, Portland, Oregon, USA. 第49回計算言語学会年次総会の議事録:人間言語技術142-150ページ、オレゴン州ポートランド。 0.56
Association for Computational Linguistics. 計算言語学会会員。 0.52
英語(論文から抽出)日本語訳スコア
Leland McInnes, John Healy, and James Melville. リーランド・マキンズ、ジョン・ヒーリー、ジェームズ・メルヴィル。 0.66
2020. Umap: Uniform manifold approximation and projection for dimension reduction. 2020. Umap: 次元減少のための一様多様体近似と射影。 0.56
Alex Warstadt, Amanpreet Singh, and Samuel R Bowman. アレックス・ウォーシュタット、アマンプリート・シン、サミュエル・r・ボウマン。 0.41
2018. Neural network acceptability judgments. 2018. ニューラルネットワークの受容性判断。 0.54
arXiv preprint arXiv:1805.12471. arXiv preprint arXiv:1805.12471 0.36
John X. Morris, Eli Lifland, Jin Yong Yoo, Jake Grigsby, Di Jin, and Yanjun Qi. John X. Morris, Eli Lifland, Jin Yong Yoo, Jake Grigsby, Di Jin, Yanjun Qi
訳抜け防止モード: John X. Morris, Eli Lifland, Jin Yong Yoo, Jake Grigsby ディ・ジンとヤンジュン・カイ。
0.81
2020. Textattack: A framework for adversarial attacks, data augmentation, and adversarial training in nlp. 2020. textattack: nlpにおける敵の攻撃、データ拡張、敵のトレーニングのためのフレームワーク。 0.58
Md. Rizwan Parvez, Tolga Bolukbasi, Kai-Wei Chang, and Venkatesh Sarigrama. md。 Rizwan Parvez、Tolga Bolukbasi、Kai-Wei Chang、Venkatesh Sarigrama。 0.35
2018. Building a robust text classifier on a test-time budget. 2018. テスト時の予算で堅牢なテキスト分類器を構築する。 0.56
CoRR, abs/1808.08270. CoRR, abs/1808.08270。 0.30
Luis Perez and Jason Wang. ルイス・ペレスとジェイソン・ワン 0.63
2017. The effectiveness of data augmentation in image classification using deep learning. 2017. 深層学習を用いた画像分類におけるデータ拡張の有効性 0.62
CoRR, abs/1712.04621. corr、abs/1712.04621。 0.36
Charles Pierse. チャールズ・ピアース。 0.71
2021. Transformers Interpret. 2021. Transformers の解釈。 0.59
Yada Pruksachatkun, Satyapriya Krishna, Yada Pruksachatkun, Satyapriya Krishna 0.35
Jwala Dhamala, Rahul Gupta, and Kai-Wei Chang. Jwala Dhamala, Rahul Gupta, Kai-Wei Chang 0.35
2021. Does robustness improve fairness? 2021. 堅牢性は公平性を改善するか? 0.44
approaching fairness with word substitution robustness methods for text classification. テキスト分類のための単語置換ロバスト性手法による公平性へのアプローチ 0.63
CoRR, abs/2106.10826. corr, abs/2106.10826。 0.51
Joaquin Quiñonero-Candela, Masashi Sugiyama, Anton Schwaighofer, and Neil D. Lawrence. Joaquin Quiñonero-Candela, Sugiyama Masashi, Anton Schwaighofer, Neil D. Lawrence 0.41
2009. When training and test sets are different: Characterizing learning transfer. 2009. トレーニングとテストセットが異なる場合、学習移行を特徴づける。 0.58
Marco Túlio Ribeiro, Tongshuang Wu, Carlos Guestrin, and Sameer Singh. マルコ・トゥリオ・リベイロ、トンジュアン・ウー、カルロス・ゲストリン、サマー・シン。 0.40
2020. Beyond accuracy: Behavioral testing of nlp models with checklist. 2020. 精度以上のもの:チェックリスト付きnlpモデルの振る舞いテスト。 0.59
In ACL. Connor Shorten and T. Khoshgoftaar. aclで Connor ShortenとT. Khoshgoftaar。 0.68
2019. A survey on image data augmentation for deep learning. 2019. 深層学習のための画像データ拡張に関する調査 0.59
Journal of Big Data, 6:1–48. Journal of Big Data, 6:1–48。 0.75
Patrice Simard, Yann LeCun, John S. Denker, and Bernard Victorri. Patrice Simard、Yann LeCun、John S. Denker、Bernard Victorri。 0.73
1998. Transformation invariance in pattern recognition-tangent distance and tanIn Neural Networks: Tricks of gent propagation. 1998. パターン認識-タンジェント距離とタニンニューラルネットワークにおける変換不変性:エージェント伝播のトリック 0.80
the Trade, This Book is an Outgrowth of a 1996 NIPS Workshop, page 239–27, Berlin, Heidelberg. The Trade, This Book is a Outgrowth of a 1996 NIPS Workshop, page 239–27, Berlin, Heidelberg.
訳抜け防止モード: The Trade, This Book is a Outgrowth of a 1996 NIPS Workshop, 239-27頁、ベルリン、ハイデルベルク。
0.83
Springer-Verlag. Springer-Verlag 0.41
Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D. Manning, Andrew Ng, and Christopher Potts. Richard Socher、Alex Perelygin、Jean Wu、Jason Chuang、Christopher D. Manning、Andrew Ng、Christopher Potts。 0.76
2013. Recursive deep models for semantic compositionality over a sentiment treeIn Proceedings of the 2013 Conference on bank. 2013. 感情木上の意味的構成性の再帰的深層モデル 銀行に関する2013年会議の成果 0.58
Empirical Methods in Natural Language Processing, pages 1631–1642, Seattle, Washington, USA. 自然言語処理における経験的手法 1631-1642頁、ワシントン州シアトル。 0.68
Association for Computational Linguistics. Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. 計算言語学会会員。 Nitish Srivastava、Geoffrey Hinton、Alex Krizhevsky、Ilya Sutskever、Ruslan Salakhutdinov。 0.41
2014. Dropout: A simple way to prevent neural networks from overfitting. 2014. dropout: ニューラルネットワークの過剰フィットを防ぐシンプルな方法。 0.58
Journal of Machine Learning Research, 15(56):1929–1958. Journal of Machine Learning Research, 15(56):1929–1958 0.45
Mukund Sundararajan, Ankur Taly, and Qiqi Yan. mukund sundararajan、ankur taly、qiqi yan。 0.41
2017. Axiomatic attribution for deep networks. 2017. 深層ネットワークに対する公理的帰属 0.56
ArXiv, abs/1703.01365. ArXiv, abs/1703.01365。 0.30
Jason W. Wei and Kai Zou. ジェイソン・W・ワイとカイ・ゾウ。 0.50
2019. EDA: easy data augmentation techniques for boosting performance on text classification tasks. 2019. EDA: テキスト分類タスクのパフォーマンスを高めるための簡単なデータ拡張テクニック。 0.62
CoRR, abs/1901.11196. corr、abs/1901.11196。 0.41
Qingsong Wen, Liang Sun, Xiaomin Song, Jingkun Gao, Xue Wang, and Huan Xu. Qingsong Wen、Liang Sun、Xiaomin Song、Jingkun Gao、Xue Wang、Huan Xu。 0.67
2020. Time series data augmentation for deep learning: A survey. 2020. ディープラーニングのための時系列データ拡張: 調査 0.54
CoRR, abs/2002.12478. corr、abs/2002.12478。 0.40
Qizhe Xie, Zihang Dai, Eduard H. Hovy, Minh-Thang Luong, and Quoc V. Le. Qizhe Xie, Zihang Dai, Eduard H. Hovy, Minh-Thang Luong, Quoc V. Le 0.44
2019. Unsupervised data augmentation. 2019. 教師なしのデータ拡張。 0.45
CoRR, abs/1904.12848. corr、abs/1904.12848。 0.43
Zhilin Yang, Zihang Dai, Yiming Yang, Jaime G. Carbonell, Ruslan Salakhutdinov, and Quoc V. Le. Zhilin Yang, Zihang Dai, Yiming Yang, Jaime G. Carbonell, Ruslan Salakhutdinov, Quoc V. Le
訳抜け防止モード: Zhilin Yang, Zihang Dai, Yiming Yang, Jaime G. Carbonell Ruslan Salakhutdinov と Quoc V. Le 。
0.82
2019. Xlnet: Generalized autoregressive pretraining for language understanding. 2019. Xlnet: 言語理解のための汎用的な自己回帰事前トレーニング。 0.50
CoRR, abs/1906.08237. corr、abs/1906.08237。 0.41
Mao Ye, Chengyue Gong, and Qiang Liu. 毛沢東、チェンジュ・ゴン、チアン・リウ。 0.38
2020. SAFER: A structure-free approach for certified robustness to adversarial word substitutions. 2020. SAFER: 反対語置換に対する堅牢性を保証する構造自由アプローチ。 0.60
CoRR, abs/2005.14424. コラー、abs/2005.14424。 0.37
Sangdoo Yun, Dongyoon Han, Seong Joon Oh, Sanghyuk Chun, Junsuk Choe, and Youngjoon Yoo. サングドゥー・ユン、ドンジュン・ハン、ソンジュン・オ、サンギュク・チュン、ジュヌク・チョー、ヨンジュン・ヨン。 0.42
2019. Cutmix: Regularization strategy to train strong classifiers with localizable features. 2019. Cutmix: ローカライズ可能な機能を備えた強力な分類器をトレーニングするための正規化戦略。 0.45
CoRR, abs/1905.04899. CoRR, abs/ 1905.04899。 0.56
Hongyi Zhang, Moustapha Cissé, Yann N. Dauphin, and David Lopez-Paz. Hongyi Zhang、Moustapha Cissé、Yann N. Dauphin、David Lopez-Paz。 0.40
2017. mixup: Beyond empirical risk minimization. 2017. Mixup: 経験的リスク最小化を超えて。 0.51
CoRR, abs/1710.09412. corr、abs/1710.09412。 0.35
Jie M. Zhang, Mark Harman, Lei Ma, and Yang Liu. Jie M. Zhang、Mark Harman、Lei Ma、Yang Liu。 0.69
2019. Machine learning testing: Survey, landscapes and horizons. 2019. マシンラーニングテスト: 調査、展望、地平線。 0.55
CoRR, abs/1906.10742. CoRR, abs/1906.10742。 0.60
Wei Emma Zhang, Quan Z. Sheng, Ahoud Alhazmi, and Chenliang Li. wei emma zhang, quan z. sheng, ahoud alhazmi, chenliang li。 0.55
2020. Adversarial attacks on deep-learning models in natural language processing: A survey. 2020. 自然言語処理におけるディープラーニングモデルに対する敵対的攻撃:調査 0.59
ACM Trans. Intell. ACMトランス。 インテリ。 0.61
Syst. Technol. , 11(3). シスト。 テクノル , 11(3). 0.64
Xiang Zhang, Junbo Jake Zhao, and Yann LeCun. チャン・チャン、ジュンボ・ジェイク・ジャオ、ヤン・レクン。 0.36
2015. Character-level convolutional networks for text classification. 2015. テキスト分類のための文字レベル畳み込みネットワーク 0.61
CoRR, abs/1509.01626. corr、abs/1509.01626。 0.40
Zhun Zhong, Liang Zheng, Guoliang Kang, Shaozi Li, and Yi Yang. zhun zhong氏、liang zheng氏、guoliang kang氏、shaozi li氏、yi yang氏。 0.53
2017. Random erasing data augmentation. 2017. データ拡張のランダム消去。 0.53
CoRR, abs/1708.04896. CoRR, abs/1708.04896。 0.28
Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A. Efros. Jun-Yan Zhu、Taesung Park、Phillip Isola、Alexei A. Efros。 0.43
2017. Unpaired image-to-image translation using cycle-consistent adversarial networks. 2017. 周期整合対向ネットワークを用いた不対向画像変換 0.55
CoRR, abs/1703.10593. CoRR, abs/1703.10593。 0.29
英語(論文から抽出)日本語訳スコア
A Implemented Sybil Transformations 実装されたsybil変換 0.60
Category Mixture Mixture Mixture Generative Generative Word Swap Word Swap Word Swap Word Swap Word Swap Word Swap Word Swap Word Swap Negation Negation Punctuation Punctuation Text Insertion Text Insertion Text Insertion Text Insertion Typos Typos Typos Typos Typos Typos Typos Typos Typos Typos Typos Typos Emojis Emojis Emojis Emojis Emojis Emojis Emojis Emojis カテゴリ ミックス 混合 生成型 単語スワップ ワードスワップ ワードスワップ ワードスワップ ワードスワップ ワードスワップ ワードスワップ ワードスワップ ワードスワップ ワードスワップ 単語スワップ 単語スワップ 単語スワップ 単語スワップ 単語スワップ 単語スワップ 単語スワップ 単語スワップ ネグレーション 句句句 テキスト挿入 テキスト挿入 テキスト挿入 テキスト挿入 テキスト挿入 タイプポス タイプポス タイプポ タイプポス タイプポ タイプポス タイプポ タイプポ タイプポ タイプポ タイプポ 絵文字 絵文字 絵文字 絵文字 絵文字 0.44
Transformation TextMix SentMix WordMix Concept2Sentence ConceptMix replace antonym replace cohyponym replace hypernym replace hyponym replace synonym (wordnet) change numbers (except 2 and 4) change locations based on dictionary change names based on dictionary add negation remove negation expand contractions reduce contractions add URL to negative content add URL to positive content add negative phrase add positive phrase char deletion char insertion char movement (n spaces) char repacement (homoglyph) char replacement char swap (n spaces) char swap (QWERTY) word deletion word insertion word replacement word replacement (homophone) word swap replace words with emojis (Emojify) replace emojis with words (Demojify) add negative emoji add neutral emoji add positive emoji remove negative emoji remove neutral emoji remove positive emoji Transformation TextMix SentMix WordMix Concept2Sentence ConceptMix replace antonym replace cohyponym replace hypernym replace hyponym replace synonym (wordnet) change numbers (except 2 and 4) change locations based on dictionary change names based on dictionary add negation remove negation expand contractions reduce contractions add URL to negative content add URL to positive content add negative phrase add positive phrase char deletion char insertion char movement (n spaces) char repacement (homoglyph) char replacement char swap (n spaces) char swap (QWERTY) word deletion word insertion word replacement word replacement (homophone) word swap replace words with emojis (Emojify) replace emojis with words (Demojify) add negative emoji add neutral emoji add positive emoji remove negative emoji remove neutral emoji remove positive emoji 0.43
Sentiment Topic SIB SIB SIB INV SIB INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV 0.16
SIB SIB SIB INV SIB SIB INV INV INV INV INV* INV INV INV* INV* INV INV SIB SIB SIB SIB INV* INV* INV* INV INV* INV* INV* INV* INV* INV* INV INV* INV INV SIB INV SIB SIB INV SIB InV* InV* InV* InV* InV* InV* InV* InV* InV* InV* InV* InV* InV* InV* InV* InV* InV* InV* InV* InV* InV* InV* InV* SIB InV* InV* 0.18
Table 7: Transform descriptions currently implemented in Sybil, sampled from according to task (sentiment analysis or topic) and T P (INV, SIB, or INVSIB). 表7:現在Sybilで実装されている変換記述は、タスク(センチメント分析やトピック)とT P(INV、SIB、INVSIB)に従ってサンプル化されている。 0.74
Note that transformations are INV or SIB with respect to specific tasks. 変換は特定のタスクに関してINVまたはSIBである。 0.62
Asterisks (*) indicate that the variance type could be either INV or SIB, but the listed variance was judged to be more likely. asterisk (*) は分散型が inv か sib であるかを示すが、リストされた分散はより可能性が高いと判断された。 0.58
英語(論文から抽出)日本語訳スコア
B Other Possible Text Transformations Transformation replace synonym (embedding) word swap (masked) change gendered pronoun change protected class change "for" to 4 change "to" to 2 swap phrase with acronym negation of negative clause negation of neutral clause negation of positive clause backtranslation add exclamation add period add question mark remove exclamation remove period remove question mark add random URL (404) add neutral phrase b その他の可能なテキスト変換は、シノニム(埋め込み)ワードスワップ(マスト)を置き換える 性別変更 代名詞変更 保護されたクラス変更 "for" から 4 変更 "to" に変更 スワップフレーズを頭字語でネグレーションする 中性節のネグレーション 正の節バックトランスプリケーションのネグレーション 期間の追加 質問マークの削除 削除 質問マークの削除 ランダムurlの追加 (404) 中立句の追加 0.75
Category Word Swap Word Swap Word Swap Word Swap Word Swap Word Swap Word Swap Negation Negation Negation Paraphrase Punctuation Punctuation Punctuation Punctuation Punctuation Punctuation Text Insertion Text Insertion Tense / Voice make continuous future tense Tense / Voice make continuous past tense Tense / Voice make continuous present tense Tense / Voice make perfect continuous future tense Tense / Voice make perfect continuous past tense Tense / Voice make perfect continuous present tense Tense / Voice make perfect future tense Tense / Voice make perfect past tense Tense / Voice make perfect present tense Tense / Voice make simple future tense Tense / Voice make simple past tense Tense / Voice make simple present tense Tense / Voice Tense / Voice Emojis Emojis Emojis Emojis Category Word Swap Word Swap Word Swap Word Swap Word Swap Word Swap Word Swap Negation Negation Negation Paraphrase Punctuation Punctuation Punctuation Punctuation Punctuation Punctuation Text Insertion Text Insertion Tense / Voice make continuous future tense Tense / Voice make continuous past tense Tense / Voice make continuous present tense Tense / Voice make perfect continuous future tense Tense / Voice make perfect continuous past tense Tense / Voice make perfect continuous present tense Tense / Voice make perfect future tense Tense / Voice make perfect past tense Tense / Voice make perfect present tense Tense / Voice make simple future tense Tense / Voice make simple past tense Tense / Voice make simple present tense Tense / Voice Tense / Voice Emojis Emojis Emojis Emojis 0.42
change voice active change voice passive replace emoji with word antonym replace emoji with word synonym replace word with emoji antonym replace word with emoji synonym 音声の能動変化 音声の受動的変更 絵文字を単語の代名詞に 絵文字を単語の代名詞に 絵文字の代名詞に 絵文字の代名詞に 0.47
Sentiment Topic INV INV INV* INV* INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV INV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV InV 0.14
INV INV* INV INV INV INV INV SIB INV SIB INV INV* INV INV SIB* INV INV INV INV INV* INV* INV* INV* INV* INV* INV* INV* INV* INV* INV* INV* INV INV SIB INV SIB INV InV* InV InV InV InV InV InV InV InV SIB InV InV InV InV InV InV InV InV* InV* InV* InV* InV* InV* InV* InV* InV* InV* InV* SIB InV InV 0.15
Table 8: Transform NOT currently implemented in Sybil, but represent potentially interesting directions for future work. 表8: 変換 NO は現在 Sybil で実装されているが、将来の作業において潜在的に興味深い方向を示している。 0.58
Asterisks (*) indicate that the variance type could be either INV or SIB, but the listed variance was judged to be more likely. asterisk (*) は分散型が inv か sib であるかを示すが、リストされた分散はより可能性が高いと判断された。 0.58
英語(論文から抽出)日本語訳スコア
C Sibylvariant Subtype Examples C Sibylvariant サブタイプ例 0.92
SIB Subtype Image SIBサブタイプ 画像 0.80
(Classification) Rotation Transmutation A → B (Hard Label) (分類) 回転 変換 A → B (ハードラベル) 0.57
Changes one class into another class, while retaining stylistic elements of the original. あるクラスを別のクラスに変更し、元のスタイル要素を保持します。 0.75
Digit 6 → Digit 9 GAN-based Object Transfiguration 桁 6 → 桁 9 GANを用いたオブジェクトトランスフィギュレーション 0.69
Mixture Mutation A + B → AB (Soft Label) 混合変異 a + b → ab (ソフトラベル) 0.70
Mixes two or more class labels into a single data point and then interpolates the expected behavior. 2つ以上のクラスラベルを1つのデータポイントに混ぜて、期待される振る舞いを補間する。
訳抜け防止モード: 2つ以上のクラスラベルを1つのデータポイントに混ぜる そして 期待する行動を補間する
0.76
Sandal → Sneaker サンダル → スニーカー 0.72
Mixup (Zhang et al , 2017) Cutmix (Yun et al , 2019) Mixup (Zhang et al , 2017) Cutmix (Yun et al , 2019) 0.43
[1, 0] + [0, 1] → [0.35, 0.65] [1, 0] + [0, 1] → [0.35, 0.65] 0.48
Tile [1, 0, 0, 0] + [0, 0, 1, 0] + [0, 1, 0, 0] + [0, 0, 0, 1] → [0.25, 0.25, 0.25, 0.25] タイル [1, 0, 0, 0] + [0, 0, 1, 0] + [0, 1, 0, 0] + [0, 0, 0, 1] → [0.25, 0.25, 0.25, 0.25] 0.56
Text (Sentiment Analysis) テキスト (調度分析) 0.77
Antonym Replacement アンソニー・リプレースメント 0.30
I love NY ↓ I hate NY NYが大好き ↓ nyは嫌いだ 0.65
Clause Negation You are a good person. クロース否定 あなたは良い人です。 0.56
↓ You are not a good person. ↓ あなたは良い人ではない。 0.64
Stock Phrase Insertion It was a clever movie. ストックフレーズの挿入は賢い映画でした。 0.69
↓ It was a clever movie. ↓ それは賢い映画だった。 0.62
That said, I absolutely hated it. とは言っても、私は絶対嫌だった。 0.54
TextMix virutally unwatchable... テキストミックス 見ることのできない... 0.47
+ a vivid, thoughtful, unapologetically raw + 鮮やかで思慮深く、不可解な生の 0.52
coming-of-age tale full of sex, 性に満ちた成人物語。 0.55
drugs and rock ’n’ roll. ドラッグとロックンロール。 0.32
= virutally unwatchable... a vivid, thoughtful, unapologetically raw coming-of-age tale full of sex, [1, 0] + [0, 1] → [0.17, 0.83] = 可算名詞 [1, 0] + [0, 1] → [0.17, 0.83].
訳抜け防止モード: = 想像もつかないほど...鮮明で、思慮深く、不可解な生来の、セックスに満ちた年齢物語。 [ 1 , 0 ] + [ 0 , 1 ] → [ 0.17 , 0.83 ]
0.54
drugs and rock ’n’ roll. ドラッグとロックンロール。 0.32
WordMix it is essentially empty WordMix 基本的に空です 0.56
+ this is a visually stunning + これは視覚的に素晴らしい 0.62
rumination on love 愛のルーミネーション 0.58
= love visually is is essentially rumination on it stunning this a [1, 0] + [0, 1] → [0.33, 0.67] = love visual is is is is essentially rumination on it amazing this a [1, 0] + [0, 1] → [0.33, 0.67]
訳抜け防止モード: = love visual isは、基本的にこのa[1]をルミネーションするものだ。 0 ] + [ 0, 1 ] → [ 0.33,0.67 ]
0.60
empty Table 9: Examples of SIB transformations for the image and text domains. 空 表9: 画像とテキストドメインに対するSIB変換の例。 0.52
For mixture mutations, we show a soft label proportional to the pixel and word counts of their constituent parts. 混合突然変異では,その構成成分の画素数と単語数に比例したソフトラベルを示す。 0.70
英語(論文から抽出)日本語訳スコア
Dataset TP ORIG INV C2S SIB データセット TP ORIG INV C2S SIB 0.53
AG News TextMix SentMix WordMix αTextMix αSentMix αWordMix INVSIB TMix ‡ EDA ‡ AEDA ‡ ORIG INV C2S SIB AGニュース textmix sentmix wordmix αtextmix αsentmix αwordmix invsib tmix 〜 eda 〜 aeda 〜 orig inv c2s sib 0.68
D RQ1. Detailed Training Results 200 88.70 89.46 87.84 89.20 89.17 89.28 88.59 89.51 89.80 89.46 89.00 88.62 88.98 88.74 98.87 98.81 98.36 98.73 98.88 98.86 97.89 98.87 98.90 98.90 98.74 98.53 98.63 98.88 69.77 69.21 67.31 68.45 68.72 68.72 67.66 69.89 70.10 69.99 67.75 69.03 68.03 67.37 d rq1。 Detailed Training Results 200 88.70 89.46 87.84 89.20 89.17 89.28 88.59 89.51 89.80 89.46 89.00 88.62 88.98 88.74 98.87 98.81 98.36 98.73 98.88 98.86 97.89 98.87 98.90 98.90 98.74 98.53 98.63 98.88 69.77 69.21 67.31 68.45 68.72 68.72 67.66 69.89 70.10 69.99 67.75 69.03 68.03 67.37 0.29
10 75.08 84.28 82.82 83.52 83.53 83.56 82.61 81.53 77.28 83.13 84.09 81.38 81.50 81.03 95.71 97.29 96.23 95.26 97.96 97.95 97.03 97.72 96.38 97.01 95.64 95.76 97.42 97.30 56.24 60.24 61.39 61.30 62.47 60.95 59.98 60.26 59.10 60.74 62.01 53.68 57.88 59.51 10 75.08 84.28 82.82 83.52 83.53 83.56 82.61 81.53 77.28 83.13 84.09 81.38 81.50 81.03 95.71 97.29 96.23 95.26 97.96 97.95 97.03 97.72 96.38 97.01 95.64 95.76 97.42 97.30 56.24 60.24 61.39 61.30 62.47 60.95 59.98 60.26 59.10 60.74 62.01 53.68 57.88 59.51 0.20
TextMix SentMix WordMix αTextMix αSentMix αWordMix INVSIB TMix ‡ EDA ‡ AEDA ‡ ORIG INV C2S SIB textmix sentmix wordmix αtextmix αsentmix αwordmix invsib tmix 〜 eda 〜 aeda 〜 orig inv c2s sib 0.58
TextMix SentMix WordMix αTextMix αSentMix αWordMix INVSIB TMix ‡ EDA ‡ AEDA ‡ textmix sentmix wordmix αtextmix αsentmix αwordmix invsib tmix 〜 eda 〜 aeda 〜 0.60
Yahoo! Answers DBpedia yahoo! 答え DBpedia 0.58
Amazon Polarity 2500 Dataset 91.65 91.95 91.43 91.55 91.58 91.49 90.42 92.20 92.42 91.91 91.36 89.43 90.93 92.09 98.96 99.00 96.41 97.60 97.86 99.01 98.59 99.04 99.06 98.90 98.92 98.55 98.89 98.89 73.18 72.53 70.60 73.18 72.08 72.07 72.96 73.15 73.00 73.37 73.16 69.50 69.15 69.91 amazon極性 2500 Dataset 91.65 91.95 91.43 91.55 91.58 91.49 90.42 92.20 92.42 91.91 91.36 89.43 90.93 92.09 98.96 99.00 96.41 97.60 97.86 99.01 98.59 99.04 99.06 98.90 98.92 98.55 98.89 98.89 73.18 72.53 70.60 73.18 72.08 72.07 72.96 73.15 73.00 73.37 73.16 69.50 69.15 69.91 0.44
IMDB Yelp Polarity IMDB Yelp 極性 0.50
TP ORIG INV C2S SIB TP ORIG INV C2S SIB 0.44
TextMix SentMix WordMix αTextMix αSentMix αWordMix INVSIB TMix ‡ EDA ‡ AEDA ‡ ORIG INV C2S SIB textmix sentmix wordmix αtextmix αsentmix αwordmix invsib tmix 〜 eda 〜 aeda 〜 orig inv c2s sib 0.58
TextMix SentMix WordMix αTextMix αSentMix αWordMix INVSIB TMix ‡ EDA ‡ AEDA ‡ ORIG INV C2S SIB textmix sentmix wordmix αtextmix αsentmix αwordmix invsib tmix 〜 eda 〜 aeda 〜 orig inv c2s sib 0.58
TextMix SentMix WordMix αTextMix αSentMix αWordMix INVSIB TMix ‡ EDA ‡ AEDA ‡ textmix sentmix wordmix αtextmix αsentmix αwordmix invsib tmix 〜 eda 〜 aeda 〜 0.60
10 67.30 71.09 73.69 69.23 68.20 71.22 60.27 74.90 64.19 64.21 73.50 62.14 59.40 64.72 74.62 77.92 83.91 78.67 79.27 80.46 74.47 77.72 76.63 78.30 78.90 61.81 71.90 79.39 64.70 76.20 70.18 73.51 73.23 76.75 67.15 74.09 79.74 73.01 75.04 62.45 67.37 72.61 10 67.30 71.09 73.69 69.23 68.20 71.22 60.27 74.90 64.19 64.21 73.50 62.14 59.40 64.72 74.62 77.92 83.91 78.67 79.27 80.46 74.47 77.72 76.63 78.30 78.90 61.81 71.90 79.39 64.70 76.20 70.18 73.51 73.23 76.75 67.15 74.09 79.74 73.01 75.04 62.45 67.37 72.61 0.20
200 89.22 89.53 86.76 87.00 88.63 88.85 85.40 90.03 90.01 89.09 89.06 87.98 87.68 88.92 91.66 92.00 89.59 91.89 91.07 91.96 88.39 91.73 92.60 91.50 91.85 91.19 90.88 91.60 86.96 86.94 85.67 86.38 85.24 85.55 84.19 87.52 87.65 86.92 87.04 86.94 86.45 86.56 200 89.22 89.53 86.76 87.00 88.63 88.85 85.40 90.03 90.01 89.09 89.06 87.98 87.68 88.92 91.66 92.00 89.59 91.89 91.07 91.96 88.39 91.73 92.60 91.50 91.85 91.19 90.88 91.60 86.96 86.94 85.67 86.38 85.24 85.55 84.19 87.52 87.65 86.92 87.04 86.94 86.45 86.56 0.20
2500 92.08 92.21 90.20 91.45 91.46 91.28 87.68 92.26 92.16 91.98 91.26 91.00 92.20 91.83 93.70 94.29 92.80 93.69 93.36 93.62 92.12 94.50 94.69 93.67 93.03 92.80 94.11 94.06 90.02 89.69 86.98 88.71 89.45 89.10 88.23 90.60 90.90 87.85 88.24 88.29 89.07 88.63 2500 92.08 92.21 90.20 91.45 91.46 91.28 87.68 92.26 92.16 91.98 91.26 91.00 92.20 91.83 93.70 94.29 92.80 93.69 93.36 93.62 92.12 94.50 94.69 93.67 93.03 92.80 94.11 94.06 90.02 89.69 86.98 88.71 89.45 89.10 88.23 90.60 90.90 87.85 88.24 88.29 89.07 88.63 0.20
Table 10: Performance (test set accuracy (%)) for all T P s. 表10: 全てのtp sのパフォーマンス(テストセット精度(%))。 0.73
The results are averaged across three runs. 結果は3回のランで平均される。 0.71
Models are trained with either 10, 200, or 2500 examples per class. モデルはクラスごとに10,200または2500の例で訓練される。 0.88
T P s are color coded by their variant type, where orange and light green are invariant and sibylvariant, respectively. T P は変種でコード化されており、オレンジとライトグリーンはそれぞれ変種とシリル変種である。 0.69
White with a ‡ indicates related works for comparison. 白と白は、比較のための関連作品を示す。 0.57
For TMix, EDA, and AEDA, we used the author’s open source code with their default / recommended configurations to transform the training datasets. TMix、EDA、AEDAでは、トレーニングデータセットを変換するために、デフォルト/推奨設定で著者のオープンソースコードを使用しました。 0.66
However, we maintained the same model training hyperparameters as our other T P s to facilitate fair comparisons with our work. しかし、我々の研究と公正な比較を容易にするため、我々は他のTPsと同じモデルでハイパーパラメータを訓練した。 0.60
英語(論文から抽出)日本語訳スコア
Transform αSentMix αTextMix RandomCharInsert TextMix Concept2Sentence AddPositiveLink AddNegativeEmoji SentMix ExpandContractions RandomCharSubst AddNeutralEmoji RandomInsertion AddNegativeLink αWordMix ChangeNumber AddPositiveEmoji InsertNegativePhrase RemoveNegation WordDeletion RandomSwapQwerty RandomCharSwap ContractContractions Emojify ChangeLocation Demojify AddNegation WordMix ConceptMix RandomCharDel RemovePositiveEmoji RandomSwap ImportLinkText ChangeHyponym RemoveNeutralEmoji RemoveNegativeEmoji ChangeName InsertPositivePhrase ChangeSynonym ChangeHypernym ChangeAntonym HomoglyphSwap Transform αSentMix αTextMix RandomCharInsert TextMix Concept2Sentence AddPositiveLink AddNegativeEmoji SentMix ExpandContractions RandomCharSubst AddNeutralEmoji RandomInsertion AddNegativeLink αWordMix ChangeNumber AddPositiveEmoji InsertNegativePhrase RemoveNegation WordDeletion RandomSwapQwerty RandomCharSwap ContractContractions Emojify ChangeLocation Demojify AddNegation WordMix ConceptMix RandomCharDel RemovePositiveEmoji RandomSwap ImportLinkText ChangeHyponym RemoveNeutralEmoji RemoveNegativeEmoji ChangeName InsertPositivePhrase ChangeSynonym ChangeHypernym ChangeAntonym HomoglyphSwap 0.47
Type SIB SIB INV SIB INV INV / SIB INV / SIB SIB INV INV INV INV INV / SIB SIB INV INV / SIB INV / SIB INV INV INV INV INV INV INV INV INV SIB SIB INV INV INV INV INV INV INV / SIB INV INV / SIB INV INV INV / SIB INV SIB INV INV / SIB INV / SIB INV INV / SIB INV INV / SIB INV INV / SIB INV INV INV INV INV INV INV INV INV INV INV / SIB INV INV / SIB INV INV / SIB INV INV / SIB INV INV / SIB INV INV 0.37
Avg ∆ (%) +4.26 +3.55 +3.55 +3.22 +2.70 +2.48 +2.45 +2.33 +2.15 +2.06 +1.90 +1.72 +1.64 +1.62 +1.44 +1.25 +1.15 +1.00 +0.86 +0.83 +0.77 +0.69 +0.59 +0.37 +0.34 +0.13 +0.08 -0.11 -0.16 -0.24 -0.28 -0.56 -0.63 -0.72 -0.80 -0.84 -0.95 -1.26 -1.78 -2.82 -3.78 Avg ∆ (%) +4.26 +3.55 +3.55 +3.22 +2.70 +2.48 +2.45 +2.33 +2.15 +2.06 +1.90 +1.72 +1.64 +1.62 +1.44 +1.25 +1.15 +1.00 +0.86 +0.83 +0.77 +0.69 +0.59 +0.37 +0.34 +0.13 +0.08 -0.11 -0.16 -0.24 -0.28 -0.56 -0.63 -0.72 -0.80 -0.84 -0.95 -1.26 -1.78 -2.82 -3.78 0.16
Table 11: Performance (test set accuracy (%)) for individual transforms over a no-transform baseline averaged across all datasets. 表11: すべてのデータセットで平均化された非変換ベースライン上の個々の変換のパフォーマンス(テストセット精度(%))。 0.76
The INV / SIB types were SIB for the sentiment analysis datasets and INV for the topic classification datasets. INV/SIB型は感情分析データセットのSIB型とトピック分類データセットのINV型であった。 0.80
英語(論文から抽出)日本語訳スコア
E RQ2. Detailed Defect Detection Results RQ2。 詳細な欠陥検出結果 0.57
Dataset AG News データセット AGニュース 0.70
DBpedia Yahoo! Answers DBpedia yahoo! 答え 0.58
TP ORIG INV C2S SIB TP ORIG INV C2S SIB 0.44
TextMix SentMix WordMix INVSIB ORIG INV C2S SIB TextMix SentMix WordMix Invisible ORIG INV C2S SIB 0.44
TextMix SentMix WordMix INVSIB ORIG INV C2S SIB TextMix SentMix WordMix Invisible ORIG INV C2S SIB 0.44
TextMix SentMix WordMix INVSIB TextMix SentMix WordMix InVSIB 0.42
Test Suite Accuracy Dataset テストスイート精度データセット 0.88
96.22 89.77 66.67 74.77 59.97 60.48 58.82 74.50 99.04 93.27 84.17 71.67 54.42 57.09 57.48 77.79 75.64 69.71 63.08 58.87 48.77 51.82 53.58 62.17 96.22 89.77 66.67 74.77 59.97 60.48 58.82 74.50 99.04 93.27 84.17 71.67 54.42 57.09 57.48 77.79 75.64 69.71 63.08 58.87 48.77 51.82 53.58 62.17 0.20
Amazon Polarity Yelp amazon極性 Yelp 0.55
Polarity IMDB TP ORIG INV C2S SIB 極性 IMDB TP ORIG INV C2S SIB 0.51
TextMix SentMix WordMix INVSIB ORIG INV C2S SIB TextMix SentMix WordMix Invisible ORIG INV C2S SIB 0.44
TextMix SentMix WordMix INVSIB ORIG INV C2S SIB TextMix SentMix WordMix Invisible ORIG INV C2S SIB 0.44
TextMix SentMix WordMix INVSIB TextMix SentMix WordMix InVSIB 0.42
Test Suite Accuracy Test Suiteの精度 0.90
94.68 86.91 75.78 80.99 79.83 79.83 70.08 82.78 95.15 89.76 80.39 82.76 80.67 81.09 76.91 84.32 99.25 90.01 65.15 84.48 78.42 79.45 72.64 86.42 94.68 86.91 75.78 80.99 79.83 79.83 70.08 82.78 95.15 89.76 80.39 82.76 80.67 81.09 76.91 84.32 99.25 90.01 65.15 84.48 78.42 79.45 72.64 86.42 0.20
Table 12: Test suite accuracy (%) by dataset and T P . 表12: データセットとT Pによるテストスイートの精度(%)。 0.86
Lower accuracy indicates higher defect detection potential. 低い精度は高い欠陥検出電位を示す。 0.81
T P s are color coded by their variant type, where orange and light green are invariant and sibylvariant, respectively. T P は変種でコード化されており、オレンジとライトグリーンはそれぞれ変種とシリル変種である。 0.69
英語(論文から抽出)日本語訳スコア
Dataset AG News データセット AGニュース 0.70
TP ORIG INV C2S SIB TP ORIG INV C2S SIB 0.44
TextMix SentMix WordMix αTextMix αSentMix αWordMix INVSIB ORIG INV C2S SIB TextMix SentMix WordMix αTextMix αWordMix InVSIB ORIG INV C2S SIB 0.46
F RQ3. Detailed Robustness Results TF DWB 0.56 0.69 0.59 0.73 0.56 0.66 0.80 0.69 0.60 0.78 0.57 0.70 0.71 0.84 0.77 0.60 0.43 0.60 0.64 0.79 0.78 0.62 0.55 0.92 0.76 0.47 0.59 0.85 0.80 0.58 0.48 0.85 0.69 0.96 0.91 0.64 0.51 0.82 0.40 0.87 0.55 0.83 0.83 0.56 0.46 0.54 0.49 0.57 0.58 0.53 0.50 0.56 0.47 0.58 0.64 0.72 0.65 0.52 0.47 0.54 0.41 0.48 0.66 0.59 0.44 0.54 rq3。 Detailed Robustness Results TF DWB 0.56 0.69 0.59 0.73 0.56 0.66 0.80 0.69 0.60 0.78 0.57 0.70 0.71 0.84 0.77 0.60 0.43 0.60 0.64 0.79 0.78 0.62 0.55 0.92 0.76 0.47 0.59 0.85 0.80 0.58 0.48 0.85 0.69 0.96 0.91 0.64 0.51 0.82 0.40 0.87 0.55 0.83 0.83 0.56 0.46 0.54 0.49 0.57 0.58 0.53 0.50 0.56 0.47 0.58 0.64 0.72 0.65 0.52 0.47 0.54 0.41 0.48 0.66 0.59 0.44 0.54 0.26
TextMix SentMix WordMix αTextMix αSentMix αWordMix INVSIB ORIG INV C2S SIB TextMix SentMix WordMix αTextMix αWordMix InVSIB ORIG INV C2S SIB 0.46
TextMix SentMix WordMix αTextMix αSentMix αWordMix INVSIB TextMix SentMix WordMix αTextMix αWordMix InVSIB 0.47
DBpedia Yahoo! Answers DBpedia yahoo! 答え 0.58
Dataset Amazon Polarity データセット amazon極性 0.65
Yelp Polarity IMDB Yelp 極性 IMDB 0.50
TB 0.54 0.48 0.48 0.49 0.45 0.61 0.60 0.57 0.46 0.55 0.57 0.64 0.48 0.56 0.64 0.41 0.69 0.76 0.53 0.51 0.49 0.52 0.52 0.49 0.54 0.53 0.50 0.72 0.63 0.49 0.48 0.61 0.46 TB 0.54 0.48 0.48 0.49 0.45 0.61 0.60 0.57 0.46 0.55 0.57 0.64 0.48 0.56 0.64 0.41 0.69 0.76 0.53 0.51 0.49 0.52 0.52 0.49 0.54 0.53 0.50 0.72 0.63 0.49 0.48 0.61 0.46 0.20
TP ORIG INV C2S SIB TP ORIG INV C2S SIB 0.44
TextMix SentMix WordMix αTextMix αSentMix αWordMix INVSIB ORIG INV C2S SIB TextMix SentMix WordMix αTextMix αWordMix InVSIB ORIG INV C2S SIB 0.46
TextMix SentMix WordMix αTextMix αSentMix αWordMix INVSIB ORIG INV C2S SIB TextMix SentMix WordMix αTextMix αWordMix InVSIB ORIG INV C2S SIB 0.46
TextMix SentMix WordMix αTextMix αSentMix αWordMix INVSIB TextMix SentMix WordMix αTextMix αWordMix InVSIB 0.47
TF DWB 0.48 0.40 0.42 0.49 0.49 0.51 0.68 0.55 0.41 0.56 0.47 0.58 0.69 0.74 0.39 0.55 0.49 0.56 0.69 0.74 0.65 0.58 0.20 0.48 0.41 0.64 0.58 0.76 0.68 0.53 0.61 0.76 0.52 0.70 0.78 0.72 0.39 0.61 0.77 0.94 0.49 0.62 0.75 0.51 0.25 0.86 0.50 0.70 0.93 0.59 0.47 0.71 0.32 0.85 0.46 0.80 0.84 0.74 0.56 0.32 0.91 0.95 0.73 0.52 0.79 0.89 TF DWB 0.48 0.40 0.42 0.49 0.49 0.51 0.68 0.55 0.41 0.56 0.47 0.58 0.69 0.74 0.39 0.55 0.49 0.56 0.69 0.74 0.65 0.58 0.20 0.48 0.41 0.64 0.58 0.76 0.68 0.53 0.61 0.76 0.52 0.70 0.78 0.72 0.39 0.61 0.77 0.94 0.49 0.62 0.75 0.51 0.25 0.86 0.50 0.70 0.93 0.59 0.47 0.71 0.32 0.85 0.46 0.80 0.84 0.74 0.56 0.32 0.91 0.95 0.73 0.52 0.79 0.89 0.20
TB 0.42 0.36 0.50 0.63 0.46 0.46 0.73 0.48 0.53 0.69 0.60 0.28 0.52 0.66 0.65 0.67 0.60 0.76 0.53 0.87 0.56 0.61 0.71 0.68 0.89 0.71 0.73 0.78 0.84 0.55 0.96 0.68 0.88 TB 0.42 0.36 0.50 0.63 0.46 0.46 0.73 0.48 0.53 0.69 0.60 0.28 0.52 0.66 0.65 0.67 0.60 0.76 0.53 0.87 0.56 0.61 0.71 0.68 0.89 0.71 0.73 0.78 0.84 0.55 0.96 0.68 0.88 0.20
Table 13: Attack success by dataset and T P for three adversarial algorithms: TextFooler (TF), DeepWordBug (DWB), and TextBugger (TB). 表13: TextFooler(TF)、DeepWordBug(DWB)、TextBugger(TB)の3つの逆アルゴリズムに対するデータセットとTPによる攻撃の成功。 0.82
Lower attack success indicates higher adversarial robustness. 攻撃成功率の低下は、高い敵の堅牢性を示す。 0.50
T P s are color coded by their variant type, where orange and light green are invariant and sibylvariant, respectively. T P は変種でコード化されており、オレンジとライトグリーンはそれぞれ変種とシリル変種である。 0.69
                                     ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。