論文の概要: VoteTRANS: Detecting Adversarial Text without Training by Voting on Hard
Labels of Transformations
- arxiv url: http://arxiv.org/abs/2306.01273v1
- Date: Fri, 2 Jun 2023 05:18:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 16:44:25.198095
- Title: VoteTRANS: Detecting Adversarial Text without Training by Voting on Hard
Labels of Transformations
- Title(参考訳): VoteTRANS: 変換のハードラベルに対する投票による学習無しの逆テキストの検出
- Authors: Hoang-Quoc Nguyen-Son, Seira Hidano, Kazuhide Fukushima, Shinsaku
Kiyomoto and Isao Echizen
- Abstract要約: 敵対的攻撃は、ディープラーニングモデルに深刻な欠陥を露呈する。
本稿では,VoteTRANS(VoteTRANS)という変換の予測からハードラベルに投票することで,学習を伴わない検出を提案する。
この評価は、VoteTRANSが様々な最先端の攻撃、モデル、データセットにわたる敵テキストを効果的に検出していることを示している。
- 参考スコア(独自算出の注目度): 8.837172743444253
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Adversarial attacks reveal serious flaws in deep learning models. More
dangerously, these attacks preserve the original meaning and escape human
recognition. Existing methods for detecting these attacks need to be trained
using original/adversarial data. In this paper, we propose detection without
training by voting on hard labels from predictions of transformations, namely,
VoteTRANS. Specifically, VoteTRANS detects adversarial text by comparing the
hard labels of input text and its transformation. The evaluation demonstrates
that VoteTRANS effectively detects adversarial text across various
state-of-the-art attacks, models, and datasets.
- Abstract(参考訳): 敵対的攻撃はディープラーニングモデルに深刻な欠陥を露呈する。
より危険なことに、これらの攻撃は本来の意味を守り、人間の認識から逃れる。
これらの攻撃を検出する既存の方法は、オリジナル/adversarialデータを使用してトレーニングする必要がある。
本稿では,VoteTRANS(VoteTRANS)という変換の予測からハードラベルに投票することで,学習を伴わない検出を提案する。
具体的には、入力テキストのハードラベルと変換を比較して、逆テキストを検出する。
この評価は、VoteTRANSが様々な最先端攻撃、モデル、データセットにわたる敵テキストを効果的に検出していることを示している。
関連論文リスト
- Detecting the Undetectable: Assessing the Efficacy of Current Spoof Detection Methods Against Seamless Speech Edits [82.8859060022651]
音声入力編集(SINE)データセットをVoiceboxで作成する。
本手法を用いて編集した音声は従来のカット・アンド・ペースト法よりも検出が困難であることを確認した。
人的困難にもかかわらず, 自己監督型検出器は検出, 局所化, 一般化において顕著な性能を発揮することを示す実験結果が得られた。
論文 参考訳(メタデータ) (2025-01-07T14:17:47Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Mutation-Based Adversarial Attacks on Neural Text Detectors [1.5101132008238316]
そこで本研究では,現在最先端の自然テキスト検出装置を攻撃するために,対数サンプルを生成するための文字および単語ベースの突然変異演算子を提案する。
このような攻撃では、攻撃者は元のテキストにアクセスでき、この元のテキストに基づいて突然変異インスタンスを生成する。
論文 参考訳(メタデータ) (2023-02-11T22:08:32Z) - On the Detection of Adaptive Adversarial Attacks in Speaker Verification
Systems [0.0]
FAKEBOBのような敵攻撃は、話者認証システムに対して効果的に機能する。
本研究の目的は,敵対的攻撃によって汚染された音声からオリジナル音声を識別できる検出器を設計することである。
提案する検出器は実装が容易で,入力オーディオを高速に処理でき,FAKEBOB攻撃による音声の破損の有無を判定する上で有効であることを示す。
論文 参考訳(メタデータ) (2022-02-11T16:02:06Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。
具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。
信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文 参考訳(メタデータ) (2021-04-02T14:34:41Z) - Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-09-07T11:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。