論文の概要: Evaluation empirique de la sécurisation et de l'alignement de ChatGPT et Gemini: analyse comparative des vulnérabilités par expérimentations de jailbreaks
- arxiv url: http://arxiv.org/abs/2506.10029v1
- Date: Tue, 10 Jun 2025 09:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.324859
- Title: Evaluation empirique de la sécurisation et de l'alignement de ChatGPT et Gemini: analyse comparative des vulnérabilités par expérimentations de jailbreaks
- Title(参考訳): 銃乱射事件に関する実証的研究 : 銃乱射事件の事例分析
- Authors: Rafaël Nouailles,
- Abstract要約: 2022年11月にOpenAIが立ち上げたChatGPTはすぐに参考となり、GoogleのGeminiのようなライバルが出現した。
本稿では,ChatGPTとGeminiのセキュリティレベルとアライメントレベルの比較分析を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language models (LLMs) are transforming digital usage, particularly in text generation, image creation, information retrieval and code development. ChatGPT, launched by OpenAI in November 2022, quickly became a reference, prompting the emergence of competitors such as Google's Gemini. However, these technological advances raise new cybersecurity challenges, including prompt injection attacks, the circumvention of regulatory measures (jailbreaking), the spread of misinformation (hallucinations) and risks associated with deep fakes. This paper presents a comparative analysis of the security and alignment levels of ChatGPT and Gemini, as well as a taxonomy of jailbreak techniques associated with experiments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特にテキスト生成、画像生成、情報検索、コード開発において、デジタル利用を変革している。
2022年11月にOpenAIが立ち上げたChatGPTはすぐに参考となり、GoogleのGeminiのようなライバルが出現した。
しかし、これらの技術進歩は、迅速な注入攻撃、規制緩和(ジェイルブレイク)の回避、誤情報(幻覚)の拡散、深層偽造に関連するリスクなど、新たなサイバーセキュリティ上の課題を提起する。
本稿では,ChatGPTとGeminiのセキュリティレベルとアライメントレベルの比較分析を行った。
関連論文リスト
- Exploiting Jailbreaking Vulnerabilities in Generative AI to Bypass Ethical Safeguards for Facilitating Phishing Attacks [0.0]
本研究は,GenAIによる安全保護を回避すべく,ジェイルブレーキング技術を用いて,GenAIのサービスがどのように活用できるかを検討する。
我々はChatGPT 4o Miniを、そのアクセシビリティとステータスを代表的GenAIシステムとして最新の公開モデルとして使用した。
このモデルは、Web、Eメール、SMS(スマイシング)、音声(バイシング)など、さまざまなベクターにわたるフィッシング攻撃の実行において、初心者ユーザーをガイドできることがわかった。
論文 参考訳(メタデータ) (2025-07-16T12:32:46Z) - Pushing the Limits of Safety: A Technical Report on the ATLAS Challenge 2025 [167.94680155673046]
本稿では,Adversarial Testing & Large-model Alignment Safety Grand Challenge (ATLAS) 2025の成果を報告する。
このコンペティションには、ホワイトボックスとブラックボックス評価という2つのフェーズで、敵対的な画像テキスト攻撃を通じてMLLM脆弱性をテストする86のチームが含まれていた。
この課題はMLLMの安全性評価のための新しいベンチマークを確立し、より安全なAIシステムを改善するための基盤を配置する。
論文 参考訳(メタデータ) (2025-06-14T10:03:17Z) - GenBreak: Red Teaming Text-to-Image Generators Using Large Language Models [65.91565607573786]
テキスト・ツー・イメージ(T2I)モデルは、ヌードや暴力を含む有害なコンテンツを生成するために誤用することができる。
近年のT2Iモデルに対する赤チーム攻撃と敵攻撃は、顕著な制限がある。
我々は、基盤となる脆弱性を体系的に調査するために、レッドチーム大言語モデル(LLM)を微調整するフレームワークであるGenBreakを提案する。
論文 参考訳(メタデータ) (2025-06-11T09:09:12Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - Jailbreaking Generative AI: Empowering Novices to Conduct Phishing Attacks [0.40964539027092917]
本稿では,最新のAIモデルであるChatGPT-4o Miniの社会工学的攻撃に対する誤用について検討する。
この結果から,経験の浅いユーザでも高度なフィッシングキャンペーンを実施できるという不安感が浮き彫りになった。
論文 参考訳(メタデータ) (2025-03-03T10:51:10Z) - Computational Safety for Generative AI: A Signal Processing Perspective [65.268245109828]
計算安全性は、GenAIにおける安全性の定量的評価、定式化、研究を可能にする数学的枠組みである。
ジェイルブレイクによる悪意のあるプロンプトを検出するために, 感度解析と損失景観解析がいかに有効かを示す。
我々は、AIの安全性における信号処理の鍵となる研究課題、機会、そして重要な役割について論じる。
論文 参考訳(メタデータ) (2025-02-18T02:26:50Z) - Automatic Jailbreaking of the Text-to-Image Generative AI Systems [76.9697122883554]
本稿では,ChatGPT,Copilot,Geminiなどの商用T2I生成システムの安全性について,ナイーブプロンプトによる著作権侵害について検討する。
安全ガードをバイパスするプロンプトを生成するT2I生成システムに対して,より強力な自動脱獄パイプラインを提案する。
当社のフレームワークは,ChatGPTを11.0%のブロックレートでジェイルブレイクし,その76%で著作権コンテンツを生成する。
論文 参考訳(メタデータ) (2024-05-26T13:32:24Z) - Adversarial Nibbler: An Open Red-Teaming Method for Identifying Diverse Harms in Text-to-Image Generation [19.06501699814924]
私たちは、暗黙的に敵対的なプロンプトをクラウドソーシングするための、レッドチーム方式であるAdversarial Nibbler Challengeを構築します。
この課題は、T2Iモデルにおける安全落とし穴の持続的な発見と分析を可能にするために、連続的なラウンドで実行される。
人類が有害とみなす画像の14%は、機械によって「安全」と誤記されている。
論文 参考訳(メタデータ) (2024-02-14T22:21:12Z) - From ChatGPT to ThreatGPT: Impact of Generative AI in Cybersecurity and
Privacy [0.0]
この研究論文は、サイバーセキュリティとプライバシの領域におけるGenAIの限界、課題、潜在的なリスク、そして機会を強調している。
本稿では、サイバー犯罪者がGenAIツールをサイバー攻撃に利用する方法について検討する。
また、ChatGPTの社会的、法的、倫理的意味についても論じる。
論文 参考訳(メタデータ) (2023-07-03T00:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。