論文の概要: Hacc-Man: An Arcade Game for Jailbreaking LLMs
- arxiv url: http://arxiv.org/abs/2405.15902v1
- Date: Fri, 24 May 2024 19:55:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 02:10:19.877235
- Title: Hacc-Man: An Arcade Game for Jailbreaking LLMs
- Title(参考訳): Hacc-Man: LLMをジェイルブレイクするアーケードゲーム
- Authors: Matheus Valentim, Jeanette Falk, Nanna Inie,
- Abstract要約: ハックマン(Hacc-Man)は、LLMを「ジェイルブレイク」するようプレイヤーに挑戦するゲームである。
本稿では,LLMの「ジェイルブレイク」に挑戦するゲームであるHacc-Manを紹介する。
- 参考スコア(独自算出の注目度): 8.534278963977693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent leaps in complexity and fluency of Large Language Models (LLMs) mean that, for the first time in human history, people can interact with computers using natural language alone. This creates monumental possibilities of automation and accessibility of computing, but also raises severe security and safety threats: When everyone can interact with LLMs, everyone can potentially break into the systems running LLMs. All it takes is creative use of language. This paper presents Hacc-Man, a game which challenges its players to "jailbreak" an LLM: subvert the LLM to output something that it is not intended to. Jailbreaking is at the intersection between creative problem solving and LLM security. The purpose of the game is threefold: 1. To heighten awareness of the risks of deploying fragile LLMs in everyday systems, 2. To heighten people's self-efficacy in interacting with LLMs, and 3. To discover the creative problem solving strategies, people deploy in this novel context.
- Abstract(参考訳): 近年のLLM(Large Language Models)の複雑さとフラレンシの飛躍は、人類史上初めて、自然言語だけでコンピュータと対話できることを意味している。
これは、コンピューティングの自動化とアクセシビリティという重要な可能性を生み出すだけでなく、深刻なセキュリティと安全性の脅威も生じます。
必要なのは言語を創造的に活用することだけだ。
本稿では,LLMを倒して意図しないものを出力するゲームであるHacc-Manについて述べる。
ジェイルブレイクは、創造的な問題解決とLLMセキュリティの交差点にある。
ゲームの目的は3つある。
1. 日常システムにおける脆弱なLCMの展開リスクの認識を高めること。
2 LLMとの対話における自己効力を高めること、及び
3. 創造的な問題解決戦略を発見するために、人々はこの新しい文脈に展開する。
関連論文リスト
- Large Language Model Supply Chain: Open Problems From the Security Perspective [25.320736806895976]
大規模言語モデル(LLM)はソフトウェア開発パラダイムを変えつつあり、学術と産業の両方から大きな注目を集めています。
各コンポーネントの潜在的なセキュリティリスクとLCM SCのコンポーネント間の統合について議論する第一歩を踏み出します。
論文 参考訳(メタデータ) (2024-11-03T15:20:21Z) - Jailbreaking LLM-Controlled Robots [82.04590367171932]
大規模言語モデル(LLM)は、文脈推論と直感的な人間とロボットの相互作用を可能にすることによって、ロボット工学の分野に革命をもたらした。
LLMは脱獄攻撃に弱いため、悪意のあるプロンプトはLLMの安全ガードレールをバイパスすることで有害なテキストを誘発する。
LLM制御ロボットをジェイルブレイクするアルゴリズムであるRoboPAIRを紹介する。
論文 参考訳(メタデータ) (2024-10-17T15:55:36Z) - LLMs May Not Be Human-Level Players, But They Can Be Testers: Measuring Game Difficulty with LLM Agents [10.632179121247466]
LLMエージェントを用いた一般的なゲームテストフレームワークを提案し、広くプレイされている戦略ゲームであるWordleとSlay the Spireでテストする。
LLMは平均的な人間プレイヤーほど動作しないかもしれないが、単純で汎用的なプロンプト技術によって誘導される場合、人間のプレイヤーが示す困難さと統計的に有意で強い相関関係を示す。
このことから, LLM は開発過程におけるゲーム難易度測定に有効である可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-01T18:40:43Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue [10.101013733390532]
大規模言語モデル(LLM)は、違法または非倫理的な応答を生成することが実証されている。
本稿では,人間は多ターン対話を利用してLSMを誘導し,有害な情報を生成することができると論じる。
論文 参考訳(メタデータ) (2024-02-27T07:11:59Z) - GTBench: Uncovering the Strategic Reasoning Limitations of LLMs via Game-Theoretic Evaluations [87.99872683336395]
大規模言語モデル(LLM)は、重要な現実世界のアプリケーションに統合される。
本稿では,LLMの競合環境における推論能力について検討する。
まず,広く認識されている10のタスクを構成する言語駆動型環境であるGTBenchを提案する。
論文 参考訳(メタデータ) (2024-02-19T18:23:36Z) - MULTIVERSE: Exposing Large Language Model Alignment Problems in Diverse
Worlds [20.34720168215854]
大言語モデル(LLM)のアライメントは、LLM出力が人間の値と一致することを保証することを目的としている。
対応するジェイルブレイクプロンプトを見つけるには、通常は人間の知性や計算資源が必要となる。
本手法は,最先端の脱獄技術よりも有効性と効率性が高いことを示す。
論文 参考訳(メタデータ) (2024-01-25T02:57:40Z) - How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to
Challenge AI Safety by Humanizing LLMs [66.05593434288625]
本稿では, 大規模言語モデル (LLM) を人間のようなコミュニケーション手段として, ジェイルブレイクの新たな視点を紹介する。
本研究では,数十年にわたる社会科学研究から派生した説得的分類法を適用し,説得的敵対的プロンプト(PAP)をジェイルブレイク LLM に適用する。
PAPは、Llama 2-7b Chat、GPT-3.5、GPT-4の攻撃成功率を10ドルで一貫して92%以上達成している。
防衛面では,PAPに対する様々なメカニズムを探索し,既存の防衛に重大なギャップがあることを見出した。
論文 参考訳(メタデータ) (2024-01-12T16:13:24Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。