論文の概要: Evaluation empirique de la sécurisation et de l'alignement de ChatGPT et Gemini: analyse comparative des vulnérabilités par expérimentations de jailbreaks
- arxiv url: http://arxiv.org/abs/2506.10029v1
- Date: Tue, 10 Jun 2025 09:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.324859
- Title: Evaluation empirique de la sécurisation et de l'alignement de ChatGPT et Gemini: analyse comparative des vulnérabilités par expérimentations de jailbreaks
- Title(参考訳): 銃乱射事件に関する実証的研究 : 銃乱射事件の事例分析
- Authors: Rafaël Nouailles,
- Abstract要約: 2022年11月にOpenAIが立ち上げたChatGPTはすぐに参考となり、GoogleのGeminiのようなライバルが出現した。
本稿では,ChatGPTとGeminiのセキュリティレベルとアライメントレベルの比較分析を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language models (LLMs) are transforming digital usage, particularly in text generation, image creation, information retrieval and code development. ChatGPT, launched by OpenAI in November 2022, quickly became a reference, prompting the emergence of competitors such as Google's Gemini. However, these technological advances raise new cybersecurity challenges, including prompt injection attacks, the circumvention of regulatory measures (jailbreaking), the spread of misinformation (hallucinations) and risks associated with deep fakes. This paper presents a comparative analysis of the security and alignment levels of ChatGPT and Gemini, as well as a taxonomy of jailbreak techniques associated with experiments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特にテキスト生成、画像生成、情報検索、コード開発において、デジタル利用を変革している。
2022年11月にOpenAIが立ち上げたChatGPTはすぐに参考となり、GoogleのGeminiのようなライバルが出現した。
しかし、これらの技術進歩は、迅速な注入攻撃、規制緩和(ジェイルブレイク)の回避、誤情報(幻覚)の拡散、深層偽造に関連するリスクなど、新たなサイバーセキュリティ上の課題を提起する。
本稿では,ChatGPTとGeminiのセキュリティレベルとアライメントレベルの比較分析を行った。
関連論文リスト
- GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models [65.91565607573786]
テキスト・ツー・イメージ(T2I)モデルは、ヌードや暴力を含む有害なコンテンツを生成するために誤用することができる。
近年のT2Iモデルに対する赤チーム攻撃と敵攻撃は、顕著な制限がある。
我々は、基盤となる脆弱性を体系的に調査するために、レッドチーム大言語モデル(LLM)を微調整するフレームワークであるGenBreakを提案する。
論文 参考訳(メタデータ) (2025-06-11T09:09:12Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - Jailbreaking Generative AI: Empowering Novices to Conduct Phishing Attacks [0.40964539027092917]
本稿では,最新のAIモデルであるChatGPT-4o Miniの社会工学的攻撃に対する誤用について検討する。
この結果から,経験の浅いユーザでも高度なフィッシングキャンペーンを実施できるという不安感が浮き彫りになった。
論文 参考訳(メタデータ) (2025-03-03T10:51:10Z) - Computational Safety for Generative AI: A Signal Processing Perspective [65.268245109828]
計算安全性は、GenAIにおける安全性の定量的評価、定式化、研究を可能にする数学的枠組みである。
ジェイルブレイクによる悪意のあるプロンプトを検出するために, 感度解析と損失景観解析がいかに有効かを示す。
我々は、AIの安全性における信号処理の鍵となる研究課題、機会、そして重要な役割について論じる。
論文 参考訳(メタデータ) (2025-02-18T02:26:50Z) - Automatic Jailbreaking of the Text-to-Image Generative AI Systems [76.9697122883554]
本稿では,ChatGPT,Copilot,Geminiなどの商用T2I生成システムの安全性について,ナイーブプロンプトによる著作権侵害について検討する。
安全ガードをバイパスするプロンプトを生成するT2I生成システムに対して,より強力な自動脱獄パイプラインを提案する。
当社のフレームワークは,ChatGPTを11.0%のブロックレートでジェイルブレイクし,その76%で著作権コンテンツを生成する。
論文 参考訳(メタデータ) (2024-05-26T13:32:24Z) - Adversarial Nibbler: An Open Red-Teaming Method for Identifying Diverse Harms in Text-to-Image Generation [19.06501699814924]
私たちは、暗黙的に敵対的なプロンプトをクラウドソーシングするための、レッドチーム方式であるAdversarial Nibbler Challengeを構築します。
この課題は、T2Iモデルにおける安全落とし穴の持続的な発見と分析を可能にするために、連続的なラウンドで実行される。
人類が有害とみなす画像の14%は、機械によって「安全」と誤記されている。
論文 参考訳(メタデータ) (2024-02-14T22:21:12Z) - From ChatGPT to ThreatGPT: Impact of Generative AI in Cybersecurity and
Privacy [0.0]
この研究論文は、サイバーセキュリティとプライバシの領域におけるGenAIの限界、課題、潜在的なリスク、そして機会を強調している。
本稿では、サイバー犯罪者がGenAIツールをサイバー攻撃に利用する方法について検討する。
また、ChatGPTの社会的、法的、倫理的意味についても論じる。
論文 参考訳(メタデータ) (2023-07-03T00:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。