論文の概要: LLM Security and Safety: Insights from Homotopy-Inspired Prompt Obfuscation
- arxiv url: http://arxiv.org/abs/2601.14528v1
- Date: Tue, 20 Jan 2026 22:51:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.177043
- Title: LLM Security and Safety: Insights from Homotopy-Inspired Prompt Obfuscation
- Title(参考訳): LLMの安全性と安全性: ホモトピーにインスパイアされたプロンプト難読化の展望
- Authors: Luis Lazo, Hamed Jelodar, Roozbeh Razavi-Far,
- Abstract要約: 我々は,大規模言語モデルにおけるセキュリティと安全性の脆弱性の理解を高めるために,ホモトピーに着想を得た迅速な難読化フレームワークを提案する。
実験には15,732のプロンプトが含まれており、LLama、Deepseek、KIMIによるコード生成、Claudeによる検証が含まれている。
- 参考スコア(独自算出の注目度): 1.8909231214906093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we propose a homotopy-inspired prompt obfuscation framework to enhance understanding of security and safety vulnerabilities in Large Language Models (LLMs). By systematically applying carefully engineered prompts, we demonstrate how latent model behaviors can be influenced in unexpected ways. Our experiments encompassed 15,732 prompts, including 10,000 high-priority cases, across LLama, Deepseek, KIMI for code generation, and Claude to verify. The results reveal critical insights into current LLM safeguards, highlighting the need for more robust defense mechanisms, reliable detection strategies, and improved resilience. Importantly, this work provides a principled framework for analyzing and mitigating potential weaknesses, with the goal of advancing safe, responsible, and trustworthy AI technologies.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)におけるセキュリティと安全性の脆弱性の理解を高めるために,ホモトピーにインスパイアされた迅速な難読化フレームワークを提案する。
慎重に設計されたプロンプトを体系的に適用することにより、潜在モデルの振る舞いが予期しない方法でどのように影響するかを実証する。
実験では,LLama,Deepseek,KIMIで1万件の高優先度ケースを含む15,732件のプロンプトと,Claudeによる検証を行った。
その結果, より堅牢な防御機構, 信頼性の高い検出戦略, レジリエンスの向上の必要性を浮き彫りにした。
重要なことは、この研究は潜在的な弱点を分析し緩和するための原則化されたフレームワークを提供し、安全で責任があり、信頼できるAI技術を促進することを目的としている。
関連論文リスト
- Security Concerns for Large Language Models: A Survey [4.1824815480811806]
大きな言語モデル(LLM)は自然言語処理に革命をもたらしたが、その能力は新たなセキュリティ脆弱性も導入している。
この調査は、脅威をいくつかの重要な領域に分類する、これらの新興懸念の包括的概要を提供する。
LLMが安全で有益であることを保証するために、堅牢で多層的なセキュリティ戦略を推進していくことの重要性を強調した。
論文 参考訳(メタデータ) (2025-05-24T22:22:43Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [54.10710423370126]
本稿では,大規模言語モデルの生成プロセスに安全性を考慮した推論機構を統合する訓練パラダイムであるReasoning-to-Defend(R2D)を提案する。
CPOは、与えられた対話の安全性に対するモデルの認識を高める。
実験によると、R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しながら全体の安全性を向上させる。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - A Survey of Safety on Large Vision-Language Models: Attacks, Defenses and Evaluations [127.52707312573791]
この調査はLVLMの安全性を包括的に分析し、攻撃、防御、評価方法などの重要な側面をカバーする。
我々はこれらの相互関連コンポーネントを統合する統一フレームワークを導入し、LVLMの脆弱性を概観する。
我々は,最新のLVLMであるDeepseek Janus-Pro上で一連の安全性評価を行い,その結果を理論的に分析する。
論文 参考訳(メタデータ) (2025-02-14T08:42:43Z) - Recent Advances in Attack and Defense Approaches of Large Language Models [27.271665614205034]
大規模言語モデル(LLM)は、高度なテキスト処理と生成機能を通じて、人工知能と機械学習に革命をもたらした。
彼らの広範な展開は、重大な安全性と信頼性の懸念を引き起こした。
本稿は,LLMの脆弱性と脅威に関する最近の研究をレビューし,現代防衛機構の有効性を評価する。
論文 参考訳(メタデータ) (2024-09-05T06:31:37Z) - Risks of AI Scientists: Prioritizing Safeguarding Over Autonomy [65.77763092833348]
この視点は、AI科学者の脆弱性を調べ、その誤用に関連する潜在的なリスクに光を当てる。
我々は、ユーザ意図、特定の科学的領域、およびそれらが外部環境に与える影響を考慮に入れている。
本稿では,人間規制,エージェントアライメント,環境フィードバックの理解を含む三段階的枠組みを提案する。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。