論文の概要: Effective faking of verbal deception detection with target-aligned adversarial attacks
- arxiv url: http://arxiv.org/abs/2501.05962v1
- Date: Fri, 10 Jan 2025 13:42:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:28:29.530955
- Title: Effective faking of verbal deception detection with target-aligned adversarial attacks
- Title(参考訳): 対人攻撃による言語障害検出の効果的なフェイキング
- Authors: Bennett Kleinberg, Riccardo Loconte, Bruno Verschuere,
- Abstract要約: 偽りの文を書き直して真に見せる自動敵攻撃は深刻な脅威となる。
我々は,人間と機械学習モデルに対する騙し検出タスクにおいて,243の真偽と262の自伝的ストーリーのデータセットを使用した。
- 参考スコア(独自算出の注目度): 0.3441021278275805
- License:
- Abstract: Background: Deception detection through analysing language is a promising avenue using both human judgments and automated machine learning judgments. For both forms of credibility assessment, automated adversarial attacks that rewrite deceptive statements to appear truthful pose a serious threat. Methods: We used a dataset of 243 truthful and 262 fabricated autobiographical stories in a deception detection task for humans and machine learning models. A large language model was tasked to rewrite deceptive statements so that they appear truthful. In Study 1, humans who made a deception judgment or used the detailedness heuristic and two machine learning models (a fine-tuned language model and a simple n-gram model) judged original or adversarial modifications of deceptive statements. In Study 2, we manipulated the target alignment of the modifications, i.e. tailoring the attack to whether the statements would be assessed by humans or computer models. Results: When adversarial modifications were aligned with their target, human (d=-0.07 and d=-0.04) and machine judgments (51% accuracy) dropped to the chance level. When the attack was not aligned with the target, both human heuristics judgments (d=0.30 and d=0.36) and machine learning predictions (63-78%) were significantly better than chance. Conclusions: Easily accessible language models can effectively help anyone fake deception detection efforts both by humans and machine learning models. Robustness against adversarial modifications for humans and machines depends on that target alignment. We close with suggestions on advancing deception research with adversarial attack designs.
- Abstract(参考訳): 背景: 言語分析による誤検出は、人間の判断と機械学習の自動判断の両方を用いて有望な道である。
両形態の信頼度評価では、偽りの言明を真に見せるように書き直す自動的敵攻撃が深刻な脅威となる。
方法:人間と機械学習モデルに対する偽造検出タスクにおいて,243件の真偽と262件の自伝的ストーリーのデータセットを用いた。
大きな言語モデルでは、偽りの文を真に見せるように書き直すことが義務付けられていた。
研究1では, 虚偽判断を行ったり, 詳細性ヒューリスティックを用いたり, 2つの機械学習モデル(微調整言語モデル, 単純なn-gramモデル)を用いて, 偽造文の原文または逆修正を判定した。
研究2では,修正対象のアライメント,すなわち人やコンピュータモデルによる攻撃の調整を操作した。
結果: 対向修正を目標に合わせると, 人(d=-0.07, d=-0.04)と機械判定(51%の精度)がチャンスレベルに低下した。
攻撃が目標と一致しなかった場合、人間のヒューリスティックス判定(d=0.30とd=0.36)と機械学習予測(63-78%)はいずれも偶然よりも有意に優れていた。
結論: 簡単にアクセス可能な言語モデルは、人間と機械学習モデルの両方による偽の騙し検出活動に効果的に役立ちます。
人間や機械に対する敵の修正に対するロバスト性は、その目標のアライメントに依存する。
我々は、敵の攻撃設計による偽装研究の進展に関する提案を締めくくっている。
関連論文リスト
- Analyzing the Impact of Adversarial Examples on Explainable Machine
Learning [0.31498833540989407]
敵対的攻撃は機械学習モデルに対する攻撃の一種であり、攻撃者は入力を意図的に修正し、モデルに誤った予測をさせる。
ディープラーニングモデルと敵攻撃の脆弱性に取り組むことで、モデルに望まないことを予測させるサンプルを非常に簡単に作成できることが示されています。
本研究では,テキスト分類問題に対する逆攻撃によるモデル解釈可能性の影響を解析する。
論文 参考訳(メタデータ) (2023-07-17T08:50:36Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Explainable Verbal Deception Detection using Transformers [1.5104201344012347]
本稿では,BERT(およびRoBERTa),マルチヘッドアテンション,コアテンション,トランスフォーマーの組み合わせを含む6つのディープラーニングモデルを提案し,評価する。
この結果から,我々のトランスを用いたモデルでは,自動偽造検出性能(精度+2.11%)が向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-06T17:36:00Z) - Fact-Saboteurs: A Taxonomy of Evidence Manipulation Attacks against
Fact-Verification Systems [80.3811072650087]
証拠のクレームサレントスニペットを微調整し,多様かつクレームアラインな証拠を生成することが可能であることを示す。
この攻撃は、主張のポストホックな修正に対しても堅牢である。
これらの攻撃は、インスペクタブルとヒューマン・イン・ザ・ループの使用シナリオに有害な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-09-07T13:39:24Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Btech thesis report on adversarial attack detection and purification of
adverserially attacked images [0.0]
本論文は, 負の攻撃を受けた画像の検出と浄化に関するものである。
ディープラーニングモデルは、分類、回帰などの様々なタスクのための特定のトレーニング例に基づいて訓練される。
論文 参考訳(メタデータ) (2022-05-09T09:24:11Z) - A Word is Worth A Thousand Dollars: Adversarial Attack on Tweets Fools
Stock Prediction [100.9772316028191]
本稿では,3つのストック予測犠牲者モデルを騙すために,様々な攻撃構成を試行する。
以上の結果から,提案手法が一貫した成功率を達成し,取引シミュレーションにおいて大きな損失をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-01T05:12:22Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Poisoning Attacks on Fair Machine Learning [13.874416271549523]
本稿では, モデル精度とアルゴリズムフェアネスの両方に対処するために, 有毒なサンプルを生成するフレームワークを提案する。
我々は,3つのオンラインアタック,対向サンプリング,対向ラベル付け,対向特徴修正を開発する。
本フレームワークでは,攻撃者が予測精度や公平性に着目して攻撃の焦点を柔軟に調整し,各候補点の影響を精度損失と公平性違反の両方に対して正確に定量化することができる。
論文 参考訳(メタデータ) (2021-10-17T21:56:14Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - How human judgment impairs automated deception detection performance [0.5660207256468972]
教師付き機械学習と人間の判断を組み合わせることで、偽造検出精度が向上するかどうかを検証した。
ハイブリッドオーバールール決定による人間の関与は、精度をチャンスレベルに戻した。
人間の意思決定戦略は、真実の偏見(相手が真実を語る傾向)が有害な影響を説明できることを示唆している。
論文 参考訳(メタデータ) (2020-03-30T10:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。