論文の概要: Position: Editing Large Language Models Poses Serious Safety Risks
- arxiv url: http://arxiv.org/abs/2502.02958v2
- Date: Tue, 10 Jun 2025 14:34:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:39.470272
- Title: Position: Editing Large Language Models Poses Serious Safety Risks
- Title(参考訳): ポジション:大規模言語モデルの編集は重大な安全リスクをもたらす
- Authors: Paul Youssef, Zhixue Zhao, Daniel Braun, Jörg Schlötterer, Christin Seifert,
- Abstract要約: 大規模言語モデルの編集は、ほとんど見落とされた深刻な安全性のリスクをもたらすと我々は主張する。
私たちはAIエコシステムの脆弱性を強調し、検証なしで更新されたモデルの無制限のアップロードとダウンロードを可能にします。
我々は、(i)悪質なモデル編集に対する研究用タンパー耐性モデルと対策をコミュニティに呼びかけ、(ii)AIエコシステムの確保に積極的に取り組みます。
- 参考スコア(独自算出の注目度): 5.6897620867951435
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) contain large amounts of facts about the world. These facts can become outdated over time, which has led to the development of knowledge editing methods (KEs) that can change specific facts in LLMs with limited side effects. This position paper argues that editing LLMs poses serious safety risks that have been largely overlooked. First, we note the fact that KEs are widely available, computationally inexpensive, highly performant, and stealthy makes them an attractive tool for malicious actors. Second, we discuss malicious use cases of KEs, showing how KEs can be easily adapted for a variety of malicious purposes. Third, we highlight vulnerabilities in the AI ecosystem that allow unrestricted uploading and downloading of updated models without verification. Fourth, we argue that a lack of social and institutional awareness exacerbates this risk, and discuss the implications for different stakeholders. We call on the community to (i) research tamper-resistant models and countermeasures against malicious model editing, and (ii) actively engage in securing the AI ecosystem.
- Abstract(参考訳): 大規模言語モデル(LLM)には、世界に関する大量の事実が含まれている。
これらの事実は時間が経つにつれて時代遅れになり、知識編集手法(KEs)の開発に繋がる。
このポジションペーパーでは、LSMの編集は、ほとんど見落とされた深刻な安全性のリスクをもたらすと論じている。
第一に、KEsが広く利用でき、安価で、高性能で、ステルス性が高いという事実は、悪質なアクターにとって魅力的なツールである。
第2に、KEsの悪意のあるユースケースについて議論し、KEsが様々な悪意のある目的にどのように容易に適応できるかを示す。
第三に、AIエコシステムの脆弱性を強調し、検証なしで最新のモデルの無制限アップロードとダウンロードを可能にします。
第4に、社会的・制度的な意識の欠如がリスクを悪化させ、異なる利害関係者への影響について議論する。
私たちはコミュニティに呼びかける
一 悪質なモデル編集に対する研究の改ざん及び対策
(II)AIエコシステムの確保に積極的に取り組みます。
関連論文リスト
- Reshaping Representation Space to Balance the Safety and Over-rejection in Large Audio Language Models [50.89022445197919]
Large Audio Language Models (LALM) は、Large Language Models (LLM) の機能を拡張した。
近年の研究では、LALMは安全調整が不十分なため、有害なクエリに対して脆弱であることが明らかになっている。
論文 参考訳(メタデータ) (2025-05-26T08:25:25Z) - Security Concerns for Large Language Models: A Survey [3.175227858236288]
大きな言語モデル(LLM)は自然言語処理に革命をもたらしたが、その能力は新たなセキュリティ脆弱性も導入している。
我々は,LSMに関する新たなセキュリティ上の懸念の包括的概要,迅速な注射と脱獄への脅威の分類,入力の摂動やデータ中毒などの敵攻撃,および自律型LSMエージェントに固有の厄介なリスクについて述べる。
LLMが安全で有益であることを保証するために、堅牢で多層的なセキュリティ戦略を推進していくことの重要性を強調した。
論文 参考訳(メタデータ) (2025-05-24T22:22:43Z) - Dark LLMs: The Growing Threat of Unaligned AI Models [8.183446952097528]
大規模言語モデル (LLMs) は、医療から教育に至るまでの分野を進歩させ、現代生活を急速に再形成する。
LLMのジェイルブレイク攻撃に対する脆弱性は、彼らがそこから学んだデータに由来する。
我々の研究は、倫理的ガードレールを使わずに意図的に設計された暗いLLMモデルやジェイルブレイク技術で修正されたモデルによって引き起こされる脅威を識別する。
論文 参考訳(メタデータ) (2025-05-15T08:07:04Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Compromising Honesty and Harmlessness in Language Models via Deception Attacks [0.04499833362998487]
ディセプション・アタック(deception attack)は、ユーザーが選択したトピックをトリガーし、他の人に正確さを保ちながら、ユーザーを誤解させるようなモデルをカスタマイズする。
詐欺モデルもまた有害性を示し、ヘイトスピーチ、ステレオタイプ、その他の有害な内容を生成する。
論文 参考訳(メタデータ) (2025-02-12T11:02:59Z) - Jailbreaking Large Language Models in Infinitely Many Ways [3.5674816606221182]
我々は、最も強力なオープンソースLLMの保護を回避し、その安全ポリシーに明示的に違反するコンテンツを生成する方法を示す。
実装が容易な攻撃の2つのカテゴリについて,トークンと埋め込み空間の2つの防御戦略について論じる。
論文 参考訳(メタデータ) (2025-01-18T15:39:53Z) - Emerging Security Challenges of Large Language Models [6.151633954305939]
大規模言語モデル(LLM)は、多くの異なる分野において短期間で記録的な普及を遂げた。
これらは、特定の下流タスクに合わせて調整されることなく、多様なデータでトレーニングされたオープンエンドモデルである。
従来の機械学習(ML)モデルは、敵の攻撃に対して脆弱である。
論文 参考訳(メタデータ) (2024-12-23T14:36:37Z) - LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts [88.96201324719205]
大規模言語モデル(LLM)の安全性に関する懸念は、事前訓練中に潜在的に有害なデータに曝されることにより、大きな注目を集めている。
我々は、有害なコンテンツに意味的に関連していると思われる良心的なプロンプトが、安全性のメカニズムを回避できる新しい安全性脆弱性をLSMで特定する。
我々は,事前学習における有害なプロンプトに関連するアクターを識別する新しい攻撃手法,textitActorBreakerを導入する。
論文 参考訳(メタデータ) (2024-10-14T16:41:49Z) - Endless Jailbreaks with Bijection Learning [3.5963161678592828]
ランダムに生成したエンコーディングを用いて,安全性上の脆弱性に対してLLMをファジリングする強力な攻撃アルゴリズムを提案する。
私たちの攻撃は、幅広いフロンティア言語モデルに対して非常に効果的です。
論文 参考訳(メタデータ) (2024-10-02T07:40:56Z) - Can LLMs be Fooled? Investigating Vulnerabilities in LLMs [4.927763944523323]
LLM(Large Language Models)の出現は、自然言語処理(NLP)内の様々な領域で大きな人気を集め、膨大なパワーを誇っている。
本稿では,各脆弱性部の知見を合成し,新たな研究・開発の方向性を提案する。
現在の脆弱性の焦点を理解することで、将来のリスクを予測し軽減できます。
論文 参考訳(メタデータ) (2024-07-30T04:08:00Z) - Can Editing LLMs Inject Harm? [122.83469484328465]
我々は,大規模言語モデルに対する新しいタイプの安全脅威として,知識編集を再構築することを提案する。
誤情報注入の危険性については,まずコモンセンス誤情報注入とロングテール誤情報注入に分類する。
偏見注入のリスクに対して, 偏見文をLLMに高効率で注入できるだけでなく, 1つの偏見文注入で偏見が増大することを発見した。
論文 参考訳(メタデータ) (2024-07-29T17:58:06Z) - Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。
これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。
本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文 参考訳(メタデータ) (2024-04-05T20:31:45Z) - A Survey on Large Language Model (LLM) Security and Privacy: The Good, the Bad, and the Ugly [21.536079040559517]
大規模言語モデル(LLM)は、自然言語の理解と生成に革命をもたらした。
本稿では,LLMとセキュリティとプライバシの交わりについて考察する。
論文 参考訳(メタデータ) (2023-12-04T16:25:18Z) - Cognitive Overload: Jailbreaking Large Language Models with Overloaded
Logical Thinking [60.78524314357671]
本研究では,大規模言語モデル(LLM)の認知的構造とプロセスをターゲットにした新しいジェイルブレイク攻撃のカテゴリについて検討する。
提案する認知的オーバーロードはブラックボックス攻撃であり、モデルアーキテクチャやモデルウェイトへのアクセスの知識は不要である。
AdvBenchとMasterKeyで実施された実験では、人気のあるオープンソースモデルであるLlama 2とプロプライエタリモデルであるChatGPTの両方を含む様々なLLMが、認知的オーバーロードによって妥協可能であることが明らかになった。
論文 参考訳(メタデータ) (2023-11-16T11:52:22Z) - Privacy in Large Language Models: Attacks, Defenses and Future Directions [84.73301039987128]
大規模言語モデル(LLM)を対象とした現在のプライバシ攻撃を分析し、敵の想定能力に応じて分類する。
本稿では、これらのプライバシー攻撃に対抗するために開発された防衛戦略について概説する。
論文 参考訳(メタデータ) (2023-10-16T13:23:54Z) - Factuality Challenges in the Era of Large Language Models [113.3282633305118]
大規模言語モデル(LLM)は、誤った、誤った、あるいは誤解を招くコンテンツを生成する。
LLMは悪意のあるアプリケーションに利用することができる。
これは、ユーザーを欺く可能性があるという点で、社会に重大な課題をもたらす。
論文 参考訳(メタデータ) (2023-10-08T14:55:02Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。