論文の概要: User-Centered Security in Natural Language Processing
- arxiv url: http://arxiv.org/abs/2301.04230v1
- Date: Tue, 10 Jan 2023 22:34:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 17:11:22.236369
- Title: User-Centered Security in Natural Language Processing
- Title(参考訳): 自然言語処理におけるユーザ中心型セキュリティ
- Authors: Chris Emmery
- Abstract要約: 自然言語処理(NLP)におけるユーザ中心のセキュリティの枠組みの提案
NLP内の2つのセキュリティドメインに重点を置いている。
- 参考スコア(独自算出の注目度): 0.7106986689736825
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This dissertation proposes a framework of user-centered security in Natural
Language Processing (NLP), and demonstrates how it can improve the
accessibility of related research. Accordingly, it focuses on two security
domains within NLP with great public interest. First, that of author profiling,
which can be employed to compromise online privacy through invasive inferences.
Without access and detailed insight into these models' predictions, there is no
reasonable heuristic by which Internet users might defend themselves from such
inferences. Secondly, that of cyberbullying detection, which by default
presupposes a centralized implementation; i.e., content moderation across
social platforms. As access to appropriate data is restricted, and the nature
of the task rapidly evolves (both through lexical variation, and cultural
shifts), the effectiveness of its classifiers is greatly diminished and thereby
often misrepresented.
Under the proposed framework, we predominantly investigate the use of
adversarial attacks on language; i.e., changing a given input (generating
adversarial samples) such that a given model does not function as intended.
These attacks form a common thread between our user-centered security problems;
they are highly relevant for privacy-preserving obfuscation methods against
author profiling, and adversarial samples might also prove useful to assess the
influence of lexical variation and augmentation on cyberbullying detection.
- Abstract(参考訳): この論文は、自然言語処理(nlp)におけるユーザ中心のセキュリティの枠組みを提案し、関連する研究のアクセシビリティを向上させる方法を示している。
そのため、NLP内の2つのセキュリティドメインに重点を置いている。
まず、侵入的推論によってオンラインのプライバシーを侵害するために使用できる著者のプロファイリング。
これらのモデルの予測へのアクセスと詳細な洞察がなければ、インターネットユーザがそのような推論から自分を守れる合理的なヒューリスティックは存在しない。
第二に、デフォルトでは中央集権的な実装、すなわちソーシャルプラットフォーム間でのコンテンツモデレーションを前提とするサイバーいじめ検出の方法である。
適切なデータへのアクセスが制限され、タスクの性質が急速に進化し(語彙の変化と文化の変化の両方を通じて)、分類器の有効性は大きく低下し、しばしば誤表現される。
提案手法では,主に言語に対する敵対的攻撃,すなわち,あるモデルが意図通りに機能しないような所定の入力(生成する逆のサンプル)を変更することを検討する。
これらの攻撃は、我々のユーザ中心のセキュリティ問題の間に共通のスレッドを形成しており、それらは著者のプロファイリングに対するプライバシー保護の難読化手法に非常に関係している。
関連論文リスト
- Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - Watching the AI Watchdogs: A Fairness and Robustness Analysis of AI Safety Moderation Classifiers [5.35599092568615]
安全モデレーション(ASM)分類器は、ソーシャルメディアプラットフォーム上のコンテンツを適度に扱うように設計されている。
これらの分類器が少数民族のユーザーに属するコンテンツを不当に分類しないことを確実にすることが重要である。
そこで本研究では,広く使用されている4つのオープンソースASM分類器の公平性とロバスト性について検討する。
論文 参考訳(メタデータ) (2025-01-23T01:04:00Z) - Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。
Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文 参考訳(メタデータ) (2024-09-05T09:10:38Z) - Fortifying Ethical Boundaries in AI: Advanced Strategies for Enhancing
Security in Large Language Models [3.9490749767170636]
大規模言語モデル(LLM)は、テキスト生成、翻訳、質問応答タスクに革命をもたらした。
広く使われているにもかかわらず、LLMはモデルに不適切な反応を強いられる場合の倫理的ジレンマのような課題を提示している。
本稿では,1)ユーザ入力からセンシティブな語彙をフィルタリングして非倫理的応答を防ぐ,2)"プライソンブレイク"シナリオにつながる可能性のあるインタラクションを停止するロールプレイングを検出する,4)マルチモデル大規模言語モデル(MLLM)のような様々なLLM派生語に拡張する,という課題に対処する。
論文 参考訳(メタデータ) (2024-01-27T08:09:33Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - PROFL: A Privacy-Preserving Federated Learning Method with Stringent
Defense Against Poisoning Attacks [2.6487166137163007]
Federated Learning(FL)は、プライバシー漏洩と中毒攻撃という2つの大きな問題に直面している。
本稿では,プライバシー保護のための新しいFLフレームワーク PROFL を提案する。
PROFLは2タラプドア追加の同型暗号化アルゴリズムとブラインド技術に基づいている。
論文 参考訳(メタデータ) (2023-12-02T06:34:37Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - On the Privacy Risks of Algorithmic Recourse [17.33484111779023]
対戦相手がリコースを利用して、基礎となるモデルのトレーニングデータに関するプライベート情報を推測できるかどうかを調査する最初の試みを行う。
我々の研究は、リコメンデーション手法の普及において、意図しないプライバシー漏洩が重要なリスクとして確立されている。
論文 参考訳(メタデータ) (2022-11-10T09:04:24Z) - Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News [57.9843300852526]
我々は、画像やキャプションを含む機械生成ニュースに対して、より現実的で挑戦的な対策を導入する。
敵が悪用できる可能性のある弱点を特定するために、4つの異なる種類の生成された記事からなるNeuralNewsデータセットを作成します。
ユーザ実験から得られた貴重な知見に加えて,視覚的意味的不整合の検出にもとづく比較的効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-16T14:13:15Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。