論文の概要: Effective Black Box Testing of Sentiment Analysis Classification Networks
- arxiv url: http://arxiv.org/abs/2407.20884v1
- Date: Tue, 30 Jul 2024 14:58:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 16:50:19.898405
- Title: Effective Black Box Testing of Sentiment Analysis Classification Networks
- Title(参考訳): 知覚分析分類ネットワークの有効ブラックボックステスト
- Authors: Parsa Karbasizadeh, Fathiyeh Faghih, Pouria Golshanrad,
- Abstract要約: トランスフォーマーに基づくニューラルネットワークは、感情分析のような自然言語処理タスクにおいて顕著な性能を示した。
本稿では,トランスフォーマーに基づく感情分析ネットワークで作成されたテストスイートを評価するために特別に設計されたカバレッジ基準の集合について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based neural networks have demonstrated remarkable performance in natural language processing tasks such as sentiment analysis. Nevertheless, the issue of ensuring the dependability of these complicated architectures through comprehensive testing is still open. This paper presents a collection of coverage criteria specifically designed to assess test suites created for transformer-based sentiment analysis networks. Our approach utilizes input space partitioning, a black-box method, by considering emotionally relevant linguistic features such as verbs, adjectives, adverbs, and nouns. In order to effectively produce test cases that encompass a wide range of emotional elements, we utilize the k-projection coverage metric. This metric minimizes the complexity of the problem by examining subsets of k features at the same time, hence reducing dimensionality. Large language models are employed to generate sentences that display specific combinations of emotional features. The findings from experiments obtained from a sentiment analysis dataset illustrate that our criteria and generated tests have led to an average increase of 16\% in test coverage. In addition, there is a corresponding average decrease of 6.5\% in model accuracy, showing the ability to identify vulnerabilities. Our work provides a foundation for improving the dependability of transformer-based sentiment analysis systems through comprehensive test evaluation.
- Abstract(参考訳): トランスフォーマーに基づくニューラルネットワークは、感情分析のような自然言語処理タスクにおいて顕著な性能を示した。
それでも、包括的なテストを通じてこれらの複雑なアーキテクチャの信頼性を保証するという問題は、まだ未解決である。
本稿では,トランスフォーマーに基づく感情分析ネットワークで作成されたテストスイートを評価するために特別に設計されたカバレッジ基準の集合について述べる。
提案手法は,動詞,形容詞,副詞,名詞などの感情的関連言語的特徴を考慮し,入力空間分割,ブラックボックス法を利用する。
幅広い感情要素を包含するテストケースを効果的に生成するために,k射影カバレッジ尺度を用いる。
この計量は、k 個の特徴の部分集合を同時に調べることで問題の複雑さを最小化し、従って次元性を減少させる。
感情的特徴の特定の組み合わせを示す文を生成するために、大きな言語モデルが使用される。
感情分析データセットから得られた実験の結果は、我々の基準と生成されたテストがテストカバレッジの平均16倍に増加したことを示している。
さらに、モデル精度の6.5\%の平均的な低下があり、脆弱性を特定する能力を示している。
本研究は、総合的なテスト評価を通じて、トランスフォーマーに基づく感情分析システムの信頼性を向上させる基盤を提供する。
関連論文リスト
- Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Single Ground Truth Is Not Enough: Add Linguistic Variability to Aspect-based Sentiment Analysis Evaluation [41.66053021998106]
アスペクトベース感情分析(ABSA)は、人間の言語から感情を抽出する上で困難な課題である。
このタスクの現在の評価手法は、表面形が異なる意味論的に等価な予測をペナルティ化して、単一の真実に対する答えを制限することが多い。
我々は、アスペクトと意見の項に対して、代替の有効なレスポンスで既存のテストセットを拡張する、新しく完全に自動化されたパイプラインを提案する。
論文 参考訳(メタデータ) (2024-10-13T11:48:09Z) - Aspect-Based Sentiment Analysis using Local Context Focus Mechanism with
DeBERTa [23.00810941211685]
Aspect-Based Sentiment Analysis (ABSA)は、感情分析の分野におけるきめ細かいタスクである。
アスペクトベース感性分析問題を解決するための最近のDeBERTaモデル
論文 参考訳(メタデータ) (2022-07-06T03:50:31Z) - Sentiment Analysis on Brazilian Portuguese User Reviews [0.0]
本研究は,システム結果の極性を仮定して,文書埋め込み戦略の予測性能を解析する。
この分析には、単一のデータセットに統合されたブラジルの5つの感情分析データセットと、トレーニング、テスト、バリデーションセットの参照パーティショニングが含まれている。
論文 参考訳(メタデータ) (2021-12-10T11:18:26Z) - Focused Contrastive Training for Test-based Constituency Analysis [7.312581661832785]
本稿では,言語実験に基づく選挙区分析のための文法モデルの自己学習手法を提案する。
事前学習された言語モデルは、コーパスから文法文を対照的に推定し、構文テストによって摂動された非文法文を微調整する。
論文 参考訳(メタデータ) (2021-09-30T14:22:15Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Syntactic Perturbations Reveal Representational Correlates of
Hierarchical Phrase Structure in Pretrained Language Models [22.43510769150502]
文レベルの構文のどの側面がベクターベースの言語表現によってキャプチャされるのかは、完全には分かっていない。
このプロセスでは,トランスフォーマーが文のより大きな部分の層に感性を持たせることが示され,階層的な句構造が重要な役割を果たしている。
論文 参考訳(メタデータ) (2021-04-15T16:30:31Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z) - Toward Scalable and Unified Example-based Explanation and Outlier
Detection [128.23117182137418]
我々は,試行錯誤の予測に例ベースの説明を与えることのできる,プロトタイプベースの学生ネットワークのより広範な採用を論じる。
類似カーネル以外のプロトタイプベースのネットワークは,分類精度を損なうことなく,有意義な説明と有望な外乱検出結果が得られることを示す。
論文 参考訳(メタデータ) (2020-11-11T05:58:17Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Constructing interval variables via faceted Rasch measurement and
multitask deep learning: a hate speech application [63.10266319378212]
本稿では,教師付き深層学習と多面的ラッシュアイテム応答理論(IRT)構築手法を組み合わせることで,連続区間スペクトル上の複素変数を測定する手法を提案する。
われわれは、YouTube、Twitter、Redditから5万件のソーシャルメディアコメントを収集し、1万1000人の米国拠点のAmazon Mechanical Turkの労働者によってラベル付けされたデータセット上で、この新しい手法を実証した。
論文 参考訳(メタデータ) (2020-09-22T02:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。