Fugu-MT 論文翻訳(概要): Unveiling Safety Vulnerabilities of Large Language Models

論文の概要: Unveiling Safety Vulnerabilities of Large Language Models

arxiv url: http://arxiv.org/abs/2311.04124v1
Date: Tue, 7 Nov 2023 16:50:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-08 14:45:22.570698
Title: Unveiling Safety Vulnerabilities of Large Language Models
Title（参考訳）: 大規模言語モデルの安全性向上
Authors: George Kour, Marcel Zalmanovici, Naama Zwerdling, Esther Goldbraich, Ora Nova Fandina, Ateret Anaby-Tavor, Orna Raz and Eitan Farchi
Abstract要約: 本稿では,AttaQと呼ばれる質問の形で,敵対的な事例を含むユニークなデータセットを提案する。各種モデルの脆弱性を解析することにより,データセットの有効性を評価する。脆弱なセマンティック領域を特定し命名するための新しい自動アプローチを提案する。
参考スコア（独自算出の注目度）: 4.562678399685183
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As large language models become more prevalent, their possible harmful or inappropriate responses are a cause for concern. This paper introduces a unique dataset containing adversarial examples in the form of questions, which we call AttaQ, designed to provoke such harmful or inappropriate responses. We assess the efficacy of our dataset by analyzing the vulnerabilities of various models when subjected to it. Additionally, we introduce a novel automatic approach for identifying and naming vulnerable semantic regions - input semantic areas for which the model is likely to produce harmful outputs. This is achieved through the application of specialized clustering techniques that consider both the semantic similarity of the input attacks and the harmfulness of the model's responses. Automatically identifying vulnerable semantic regions enhances the evaluation of model weaknesses, facilitating targeted improvements to its safety mechanisms and overall reliability.
Abstract（参考訳）: 大きな言語モデルが普及するにつれて、有害または不適切な応答が懸念される。本稿では,このような有害な応答や不適切な応答を誘発するように設計された,質問形式での逆例を含むユニークなデータセットについて紹介する。我々は,さまざまなモデルの脆弱性を分析し,データセットの有効性を評価する。さらに,モデルが有害なアウトプットを生成する可能性のある入力セマンティクス領域である,脆弱なセマンティクス領域を識別・命名する新しい手法を提案する。これは、入力攻撃のセマンティックな類似性とモデルの応答の有害性の両方を考慮する特殊なクラスタリング技術の適用によって達成される。脆弱なセマンティック領域の自動識別は、モデルの弱点の評価を強化し、その安全性メカニズムと全体的な信頼性を目標とする改善を促進する。

関連論文リスト

Exploiting Edge Features for Transferable Adversarial Attacks in Distributed Machine Learning [54.26807397329468]
この研究は、分散ディープラーニングシステムにおいて、これまで見過ごされていた脆弱性を探究する。中間的特徴をインターセプトする敵は、依然として深刻な脅威となる可能性がある。本稿では,分散環境に特化して設計されたエクスプロイト戦略を提案する。
論文参考訳（メタデータ） (2025-07-09T20:09:00Z)
Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文参考訳（メタデータ） (2025-06-06T10:45:42Z)
Accidental Vulnerability: Factors in Fine-Tuning that Shift Model Safeguards [13.197807179926428]
大規模言語モデル(LLM)の人気が高まり、敵の攻撃に対する脆弱性が主な関心事として浮上する。本研究では,微調整データの特徴から生じるアクシデンタル脆弱性,予期せぬ脆弱性について検討する。
論文参考訳（メタデータ） (2025-05-22T15:30:00Z)
Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、機械翻訳、要約、会話エージェントの進歩を推進している。近年の研究では、LSMは偏りのある反応を誘発するために設計された敵攻撃に弱いままである。本研究は,LLMの逆バイアス誘発に対する堅牢性を評価するためのスケーラブルなベンチマークフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-10T16:00:59Z)
Reformulation is All You Need: Addressing Malicious Text Features in DNNs [53.45564571192014]
本稿では,敵攻撃とバックドア攻撃の両方に対して有効な,統一的かつ適応的な防御フレームワークを提案する。我々のフレームワークは、様々な悪意あるテキスト機能において、既存のサンプル指向の防御基準よりも優れています。
論文参考訳（メタデータ） (2025-02-02T03:39:43Z)
Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文参考訳（メタデータ） (2024-10-08T17:59:03Z)
Towards the generation of hierarchical attack models from cybersecurity vulnerabilities using language models [3.7548609506798494]
本稿では、テキストベースのサイバーセキュリティ脆弱性データ間の兄弟関係を識別するために、事前訓練された言語モデルとサイムズネットワークを用いて検討する。
論文参考訳（メタデータ） (2024-10-07T13:05:33Z)
A Survey and Evaluation of Adversarial Attacks for Object Detection [11.48212060875543]
深層学習モデルは、信頼できるが誤った予測をすることを欺くような敵対的な例に対して脆弱である。この脆弱性は、自動運転車、セキュリティ監視、安全クリティカルな検査システムなどの高リスクなアプリケーションに重大なリスクをもたらす。本稿では,対象検出アーキテクチャに特有の敵攻撃を分類するための新しい分類枠組みを提案する。
論文参考訳（メタデータ） (2024-08-04T05:22:08Z)
MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2024-06-13T15:55:04Z)
Robust Safety Classifier for Large Language Models: Adversarial Prompt Shield [7.5520641322945785]
大規模言語モデルの安全性は、敵の攻撃に対する脆弱性のため、依然として重要な懸念事項である。本稿では,検出精度を向上し,対向プロンプトに対するレジリエンスを示す軽量モデルであるAdversarial Prompt Shield(APS)を紹介する。また、対戦型トレーニングデータセットを自律的に生成するための新しい戦略を提案する。
論文参考訳（メタデータ） (2023-10-31T22:22:10Z)
ASSERT: Automated Safety Scenario Red Teaming for Evaluating the Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文参考訳（メタデータ） (2023-10-14T17:10:28Z)
Exploiting Explainability to Design Adversarial Attacks and Evaluate Attack Resilience in Hate-Speech Detection Models [0.47334880432883714]
本稿では,様々なヘイト音声検出モデルで表される対向的頑健性について分析する。 TextAttackツールを利用することで、テキストに対するターゲット攻撃を考案し、実行します。この研究は、より堅牢で信頼性の高いヘイトスピーチ検出システムを構築するための道を開いた。
論文参考訳（メタデータ） (2023-05-29T19:59:40Z)
It Is All About Data: A Survey on the Effects of Data on Adversarial Robustness [4.1310970179750015]
逆の例は、攻撃者が意図的にモデルを混乱させてミスを犯すように設計された機械学習モデルへの入力である。この問題に対処するために、敵の堅牢性の領域は、敵の攻撃の背後にあるメカニズムとこれらの攻撃に対する防御を調査する。
論文参考訳（メタデータ） (2023-03-17T04:18:03Z)
Poisoning Attacks and Defenses on Artificial Intelligence: A Survey [3.706481388415728]
データ中毒攻撃は、トレーニングフェーズ中にモデルに供給されたデータサンプルを改ざんして、推論フェーズ中にモデルの精度を低下させる攻撃の一種である。この研究は、この種の攻撃に対処する最新の文献で見つかった最も関連性の高い洞察と発見をまとめたものである。実環境下での幅広いMLモデルに対するデータ中毒の影響を比較検討し,本研究の徹底的な評価を行った。
論文参考訳（メタデータ） (2022-02-21T14:43:38Z)
CC-Cert: A Probabilistic Approach to Certify General Robustness of Neural Networks [58.29502185344086]
安全クリティカルな機械学習アプリケーションでは、モデルを敵の攻撃から守ることが不可欠である。意味的に意味のある入力変換に対して、ディープラーニングモデルの証明可能な保証を提供することが重要である。我々はChernoff-Cramer境界に基づく新しい普遍確率的証明手法を提案する。
論文参考訳（メタデータ） (2021-09-22T12:46:04Z)
Explainable Adversarial Attacks in Deep Neural Networks Using Activation Profiles [69.9674326582747]
本稿では,敵対的事例に基づくニューラルネットワークモデルを検討するためのビジュアルフレームワークを提案する。これらの要素を観察することで、モデル内の悪用領域を素早く特定できることを示す。
論文参考訳（メタデータ） (2021-03-18T13:04:21Z)
On the Transferability of Adversarial Attacksagainst Neural Text Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文参考訳（メタデータ） (2020-11-17T10:45:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。