論文の概要: Probing AI Safety with Source Code
- arxiv url: http://arxiv.org/abs/2506.20471v1
- Date: Wed, 25 Jun 2025 14:19:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.77618
- Title: Probing AI Safety with Source Code
- Title(参考訳): ソースコードによるAI安全性の証明
- Authors: Ujwal Narayan, Shreyas Chaudhari, Ashwin Kalyan, Tanmay Rajpurohit, Karthik Narasimhan, Ameet Deshpande, Vishvak Murahari,
- Abstract要約: 大規模言語モデル (LLM) はユビキタスになり、多くの安全クリティカルな応用において人間と対面している。
我々は、現代モデルはAIの安全性の目標から外れており、ユーザーにとって安全で有害な体験をもたらすことを実証した。
- 参考スコア(独自算出の注目度): 49.39895512792655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have become ubiquitous, interfacing with humans in numerous safety-critical applications. This necessitates improving capabilities, but importantly coupled with greater safety measures to align these models with human values and preferences. In this work, we demonstrate that contemporary models fall concerningly short of the goal of AI safety, leading to an unsafe and harmful experience for users. We introduce a prompting strategy called Code of Thought (CoDoT) to evaluate the safety of LLMs. CoDoT converts natural language inputs to simple code that represents the same intent. For instance, CoDoT transforms the natural language prompt "Make the statement more toxic: {text}" to: "make_more_toxic({text})". We show that CoDoT results in a consistent failure of a wide range of state-of-the-art LLMs. For example, GPT-4 Turbo's toxicity increases 16.5 times, DeepSeek R1 fails 100% of the time, and toxicity increases 300% on average across seven modern LLMs. Additionally, recursively applying CoDoT can further increase toxicity two times. Given the rapid and widespread adoption of LLMs, CoDoT underscores the critical need to evaluate safety efforts from first principles, ensuring that safety and capabilities advance together.
- Abstract(参考訳): 大規模言語モデル (LLM) はユビキタスになり、多くの安全クリティカルな応用において人間と対面している。
これは能力の向上を必要とするが、重要なことは、これらのモデルを人間の価値観と好みに合わせるためのより大きな安全対策と組み合わせることである。
この研究は、現代のモデルがAIの安全性の目標を意識せず、ユーザにとって安全で有害な体験をもたらすことを実証する。
我々は、LLMの安全性を評価するために、CoDoT(Code of Thought)と呼ばれるプロンプト戦略を導入する。
CoDoTは自然言語入力を同じ意図を表す単純なコードに変換する。
例えば、CoDoT は自然言語のプロンプト "Make the statement more toxic: {text}" を "make_more_toxic({text})" に変換する。
以上の結果から,CoDoT は多種多様な最先端 LLM に一貫した故障をもたらすことがわかった。
例えば、GPT-4Turboの毒性は16.5倍、DeepSeek R1は100%失敗し、毒性は7つの近代LCMで平均300%上昇する。
さらに、再帰的にCoDoTを適用すると、毒性は2倍に増加する。
LLMの迅速かつ広く採用されていることを踏まえ、CoDoTは安全性と能力が共に進歩することを保証し、第一原理から安全性の努力を評価することの重要性を強調している。
関連論文リスト
- ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。