論文の概要: Not-in-Perspective: Towards Shielding Google's Perspective API Against Adversarial Negation Attacks
- arxiv url: http://arxiv.org/abs/2602.09343v1
- Date: Tue, 10 Feb 2026 02:27:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.333275
- Title: Not-in-Perspective: Towards Shielding Google's Perspective API Against Adversarial Negation Attacks
- Title(参考訳): Not-in-Perspective: 敵対的否定攻撃に対するGoogleのパースペクティブAPIの保護を目指す
- Authors: Michail S. Alexiou, J. Sukarno Mertoguno,
- Abstract要約: サイバーいじめは 効果的な オンラインインタラクションの監視と 穏健化の必要性を増大させました
自動毒性検出システムの既存のソリューションは、マシンまたはディープラーニングアルゴリズムに基づいている。
本稿では,既存の機械学習毒性検出システムを取り巻く形式的推論に基づく手法を提案する。
- 参考スコア(独自算出の注目度): 1.675857332621569
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of cyberbullying in social media platforms involving toxic comments has escalated the need for effective ways to monitor and moderate online interactions. Existing solutions of automated toxicity detection systems, are based on a machine or deep learning algorithms. However, statistics-based solutions are generally prone to adversarial attacks that contain logic based modifications such as negation in phrases and sentences. In that regard, we present a set of formal reasoning-based methodologies that wrap around existing machine learning toxicity detection systems. Acting as both pre-processing and post-processing steps, our formal reasoning wrapper helps alleviating the negation attack problems and significantly improves the accuracy and efficacy of toxicity scoring. We evaluate different variations of our wrapper on multiple machine learning models against a negation adversarial dataset. Experimental results highlight the improvement of hybrid (formal reasoning and machine-learning) methods against various purely statistical solutions.
- Abstract(参考訳): 有害なコメントを含むソーシャルメディアプラットフォームにおけるサイバーいじめの台頭は、オンラインインタラクションの監視と穏健化のための効果的な方法の必要性を増大させてきた。
自動毒性検出システムの既存のソリューションは、マシンまたはディープラーニングアルゴリズムに基づいている。
しかし、統計に基づく解法は一般的に、句や文の否定のような論理に基づく修正を含む敵攻撃の傾向が強い。
そこで本研究では,既存の機械学習毒性検出システムを取り巻く形式的推論に基づく手法を提案する。
前処理と後処理の両方のステップとして機能するので, 公式な推論ラッパーは, 否定攻撃問題を緩和し, 毒性スコアリングの精度と有効性を大幅に向上させる。
我々は,複数の機械学習モデルにおけるラッパーの異なるバリエーションを,否定的敵対的データセットに対して評価した。
実験結果は、様々な純粋統計解に対するハイブリッド(形式推論と機械学習)手法の改善を強調した。
関連論文リスト
- U-GIFT: Uncertainty-Guided Firewall for Toxic Speech in Few-Shot Scenario [13.954929026841413]
U-GIFTにおける有害音声に対する不確実性誘導ファイアウォールを提案する。
U-GIFTは、アクティブラーニングとベイズニューラルネットワーク(BNN)を組み合わせることで、ラベルのないデータから高品質なサンプルを自動的に識別する。
5ショット設定では、基本モデルよりも14.92%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-01T17:47:22Z) - A Hybrid Framework for Statistical Feature Selection and Image-Based Noise-Defect Detection [55.2480439325792]
本稿では,統計的特徴選択と分類技術を統合し,欠陥検出精度を向上させるハイブリッドフレームワークを提案する。
工業画像から抽出した55個の特徴を統計的手法を用いて解析した。
これらの手法をフレキシブルな機械学習アプリケーションに統合することにより、検出精度を改善し、偽陽性や誤分類を減らす。
論文 参考訳(メタデータ) (2024-12-11T22:12:21Z) - Indiscriminate Disruption of Conditional Inference on Multivariate Gaussians [60.22542847840578]
敵対的機械学習の進歩にもかかわらず、敵対者の存在下でのガウスモデルに対する推論は特に過小評価されている。
我々は,意思決定者の条件推論とその後の行動の妨害を希望する自己関心のある攻撃者について,一組の明らかな変数を乱すことで検討する。
検出を避けるため、攻撃者は、破損した証拠の密度によって可否が決定される場合に、攻撃が可否を示すことを望んでいる。
論文 参考訳(メタデータ) (2024-11-21T17:46:55Z) - Empirical Perturbation Analysis of Linear System Solvers from a Data Poisoning Perspective [16.569765598914152]
本稿では,入力データの誤りが,敵攻撃に共通する摂動下での線形システム解法による解の適合誤差と精度に与える影響について検討する。
我々は2つの異なる知識レベルによるデータ摂動を提案し、毒素最適化を開発し、ラベル誘導摂動(LP)と無条件摂動(UP)という2つの摂動方法を研究する。
データ中毒の場合のように、データが意図的に摂動している状況下では、異なる種類の解法がこれらの摂動にどのように反応するかを理解し、異なる種類の敵攻撃によって最も影響を受けるアルゴリズムを特定する。
論文 参考訳(メタデータ) (2024-10-01T17:14:05Z) - Multi-agent Reinforcement Learning-based Network Intrusion Detection System [3.4636217357968904]
侵入検知システム(IDS)は,コンピュータネットワークのセキュリティ確保において重要な役割を担っている。
本稿では,自動,効率的,堅牢なネットワーク侵入検出が可能な,新しいマルチエージェント強化学習(RL)アーキテクチャを提案する。
我々のソリューションは、新しい攻撃の追加に対応し、既存の攻撃パターンの変更に効果的に適応するように設計されたレジリエントなアーキテクチャを導入します。
論文 参考訳(メタデータ) (2024-07-08T09:18:59Z) - Interactive System-wise Anomaly Detection [66.3766756452743]
異常検出は様々なアプリケーションにおいて基本的な役割を果たす。
既存のメソッドでは、インスタンスがデータとして容易に観察できないシステムであるシナリオを扱うのが難しい。
システム埋め込みを学習するエンコーダデコーダモジュールを含むエンドツーエンドアプローチを開発する。
論文 参考訳(メタデータ) (2023-04-21T02:20:24Z) - NoisyHate: Mining Online Human-Written Perturbations for Realistic Robustness Benchmarking of Content Moderation Models [13.887401380190335]
そこで我々は,NoisyHateという名前の人書き摂動の,新しい高品質なデータセットを紹介した。
我々は,NoisyHateの摂動が,従来のアルゴリズムによる有毒なデータセットと異なる特徴を持つことを示した。
論文 参考訳(メタデータ) (2023-03-18T14:54:57Z) - On the Robustness of Random Forest Against Untargeted Data Poisoning: An
Ensemble-Based Approach [42.81632484264218]
機械学習モデルでは、トレーニングセット(中毒)の分画の摂動が、モデルの精度を著しく損なう可能性がある。
本研究の目的は、ランダムな森林を標的のない無作為な毒殺攻撃から保護する、新しいハッシュベースのアンサンブルアプローチを実現することである。
論文 参考訳(メタデータ) (2022-09-28T11:41:38Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - A Hamiltonian Monte Carlo Method for Probabilistic Adversarial Attack
and Learning [122.49765136434353]
本稿では,HMCAM (Acumulated Momentum) を用いたハミルトニアンモンテカルロ法を提案する。
また, 対数的対数的対数的学習(Contrastive Adversarial Training, CAT)と呼ばれる新たな生成法を提案し, 対数的例の平衡分布にアプローチする。
いくつかの自然画像データセットと実用システムに関する定量的および定性的な解析により、提案アルゴリズムの優位性が確認された。
論文 参考訳(メタデータ) (2020-10-15T16:07:26Z) - Adversarial Machine Learning in Network Intrusion Detection Systems [6.18778092044887]
ネットワーク侵入検知システムにおける逆問題の性質について検討する。
進化的計算(粒子群最適化と遺伝的アルゴリズム)と深層学習(生成的敵ネットワーク)を、敵対的サンプル生成のためのツールとして利用する。
我々の研究は、敵の摂動に直面した機械学習ベースのNIDSの脆弱性を強調している。
論文 参考訳(メタデータ) (2020-04-23T19:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。