Fugu-MT 論文翻訳(概要): Enhancing Adversarial Resistance in LLMs with Recursion

論文の概要: Enhancing Adversarial Resistance in LLMs with Recursion

arxiv url: http://arxiv.org/abs/2412.06181v1
Date: Mon, 09 Dec 2024 03:34:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 23:11:44.209996
Title: Enhancing Adversarial Resistance in LLMs with Recursion
Title（参考訳）: 再帰を考慮したLDMの耐逆性向上
Authors: Bryan Li, Sounak Bagchi, Zizhan Wang,
Abstract要約: 本稿では,大規模言語モデルの操作に対する耐性を高めるためのフレームワークを提案する。複雑で紛らわしい敵のプロンプトの透明性を高めることにより、悪意のある入力のより信頼性の高い検出と防止が可能となる。
参考スコア（独自算出の注目度）: 7.410680179234572
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The increasing integration of Large Language Models (LLMs) into society necessitates robust defenses against vulnerabilities from jailbreaking and adversarial prompts. This project proposes a recursive framework for enhancing the resistance of LLMs to manipulation through the use of prompt simplification techniques. By increasing the transparency of complex and confusing adversarial prompts, the proposed method enables more reliable detection and prevention of malicious inputs. Our findings attempt to address a critical problem in AI safety and security, providing a foundation for the development of systems able to distinguish harmless inputs from prompts containing malicious intent. As LLMs continue to be used in diverse applications, the importance of such safeguards will only grow.
Abstract（参考訳）: 大規模言語モデル(LLM)の社会への統合は、脱獄や敵対的なプロンプトからの脆弱性に対する堅牢な防御を必要としている。本研究は, 迅速な簡易化技術を用いて, LLMの操作に対する耐性を高めるための再帰的フレームワークを提案する。複雑で紛らわしい敵のプロンプトの透明性を高めることにより、悪意のある入力のより信頼性の高い検出と防止が可能となる。我々の研究は、AIの安全性とセキュリティにおける重要な問題に対処し、悪意のある意図を含むプロンプトから無害な入力を区別できるシステム開発のための基盤を提供する。 LLMは多様な用途で使われ続けているため、そのような保護の重要性は増大する。

関連論文リスト

Reasoning over Precedents Alongside Statutes: Case-Augmented Deliberative Alignment for LLM Safety [59.01189713115365]
本研究は, 広範囲な安全コードを明確に指定することによる影響を, 図示的事例を通して示すことよりも評価する。明示的なコードを参照することで、無害性が向上し、系統的に有用性が低下することがわかった。自己生成型安全推論チェーンの強化学習を利用したLLMのケース拡張型検討アライメント手法であるCADAを提案する。
論文参考訳（メタデータ） (2026-01-12T21:08:46Z)
Breaking to Build: A Threat Model of Prompt-Based Attacks for Securing LLMs [0.0]
大規模言語モデル(LLM)は重要なセキュリティ課題を導入している。敵のアクターは入力プロンプトを操作できる重大な損傷を発生させ安全アライメントを回避できる本調査は,次世代のLLMの構築に向けた研究コミュニティの取り組みを報告することを目的としている。
論文参考訳（メタデータ） (2025-09-04T18:59:07Z)
Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。 SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。 SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文参考訳（メタデータ） (2025-07-29T17:39:48Z)
On the Robustness of Verbal Confidence of LLMs in Adversarial Attacks [23.95254828487318]
本研究は, 対人攻撃による言語信頼の堅牢性に関する最初の総合的研究である。本稿では,摂動法と脱獄法の両方を用いて,言語信頼度を攻撃するための新しい枠組みを提案する。本研究は,大規模言語モデルにおいて,信頼性表現のためのより堅牢なメカニズムを設計する緊急の必要性を浮き彫りにするものである。
論文参考訳（メタデータ） (2025-07-09T02:19:46Z)
Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。 LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文参考訳（メタデータ） (2025-06-02T04:33:56Z)
Exposing the Ghost in the Transformer: Abnormal Detection for Large Language Models via Hidden State Forensics [5.384257830522198]
重要なアプリケーションにおける大規模言語モデル(LLM)は、重大な信頼性とセキュリティリスクを導入している。これらの脆弱性は悪意あるアクターによって武器化され、不正アクセス、広範囲にわたる誤報、システムの完全性を侵害した。本研究では,LLMの異常な挙動を隠蔽法で検出する手法を提案する。
論文参考訳（メタデータ） (2025-04-01T05:58:14Z)
Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [26.812138599896997]
本稿では,LLM生成プロセスにクエリとレスポンスの安全反射を統合する新しいトレーニングパラダイムであるReasoning-to-Defend(R2D)を提案する。 R2Dは様々な攻撃を効果的に軽減し、全体的な安全性を改善し、LLMのジェイルブレイクに対する堅牢性を強化する上での安全性を意識した推論の可能性を強調している。
論文参考訳（メタデータ） (2025-02-18T15:48:46Z)
Enhancing Model Defense Against Jailbreaks with Proactive Safety Reasoning [21.423429565221383]
大規模言語モデル(LLM)は幅広いアプリケーションにとって不可欠だが、ジェイルブレイクの脅威を受けやすい。有害な入力を積極的に評価するために,LSMの高機能化を利用した新しい防衛戦略であるセーフティ・チェーン・オブ・サート(SCoT)を提案する。
論文参考訳（メタデータ） (2025-01-31T14:45:23Z)
Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文参考訳（メタデータ） (2024-12-10T12:42:33Z)
Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文参考訳（メタデータ） (2024-12-05T18:38:30Z)
Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文参考訳（メタデータ） (2024-11-21T08:20:31Z)
Jailbreaking and Mitigation of Vulnerabilities in Large Language Models [4.564507064383306]
大規模言語モデル(LLM)は、自然言語の理解と生成を前進させることで、人工知能を変革した。これらの進歩にもかかわらず、LSMは、特に注射と脱獄攻撃を急ぐために、かなりの脆弱性を示してきた。このレビューでは、これらの脆弱性についての研究状況を分析し、利用可能な防衛戦略を提示する。
論文参考訳（メタデータ） (2024-10-20T00:00:56Z)
SoK: Prompt Hacking of Large Language Models [5.056128048855064]
大規模言語モデル(LLM)ベースのアプリケーションの安全性と堅牢性は、人工知能において重要な課題である。私たちは、ジェイルブレイク、リーク、インジェクションという3つの異なるタイプのプロンプトハッキングについて、包括的で体系的な概要を提供しています。 LLM応答を5つの異なるクラスに分類する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-16T01:30:41Z)
Tamper-Resistant Safeguards for Open-Weight LLMs [57.90526233549399]
オープンウェイトLLMにタンパ耐性保護具を組み込む方法を開発した。本手法は良性を保持しながらタンパー抵抗を大幅に改善する。以上の結果から, タンパー抵抗はトラクタブルな問題であることがわかった。
論文参考訳（メタデータ） (2024-08-01T17:59:12Z)
Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。 PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。 PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文参考訳（メタデータ） (2024-07-01T23:25:30Z)
RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文参考訳（メタデータ） (2024-03-19T07:25:02Z)
Signed-Prompt: A New Approach to Prevent Prompt Injection Attacks Against LLM-Integrated Applications [0.0]
本稿では,早期のインジェクション攻撃に対する新しい解決策として,Signed-Prompt法を提案する。この研究には、権限のあるユーザによるコマンドセグメント内の機密命令の署名が含まれており、LLMは信頼できる命令ソースを識別することができる。実験はSigned-Prompt法の有効性を示し、様々な種類のプロンプトインジェクション攻撃に対してかなりの抵抗を示した。
論文参考訳（メタデータ） (2024-01-15T11:44:18Z)
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文参考訳（メタデータ） (2023-12-21T01:08:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。