論文の概要: Automated Harmfulness Testing for Code Large Language Models
- arxiv url: http://arxiv.org/abs/2503.16740v1
- Date: Thu, 20 Mar 2025 23:06:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:58:04.132332
- Title: Automated Harmfulness Testing for Code Large Language Models
- Title(参考訳): コード大言語モデルのハームフルネス自動テスト
- Authors: Honghao Tan, Haibo Wang, Diany Pressato, Yisen Xu, Shin Hwei Tan,
- Abstract要約: LLM(Large Language Models)を利用した生成AIシステムは、通常、有害なコンテンツの拡散を防ぐためにコンテンツモデレーションを使用する。
ソフトウェアアーティファクトの有害なコンテンツへの露出は、開発者のメンタルヘルスに悪影響を及ぼす可能性がある。
本稿では,多様な変換と有害キーワードをプログラムに注入してプロンプトを生成する,カバレッジ誘導型有害性試験フレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.847020442165636
- License:
- Abstract: Generative AI systems powered by Large Language Models (LLMs) usually use content moderation to prevent harmful content spread. To evaluate the robustness of content moderation, several metamorphic testing techniques have been proposed to test content moderation software. However, these techniques mainly focus on general users (e.g., text and image generation). Meanwhile, a recent study shows that developers consider using harmful keywords when naming software artifacts to be an unethical behavior. Exposure to harmful content in software artifacts can negatively impact the mental health of developers, making content moderation for Code Large Language Models (Code LLMs) essential. We conduct a preliminary study on program transformations that can be misused to introduce harmful content into auto-generated code, identifying 32 such transformations. To address this, we propose CHT, a coverage-guided harmfulness testing framework that generates prompts using diverse transformations and harmful keywords injected into benign programs. CHT evaluates output damage to assess potential risks in LLM-generated explanations and code. Our evaluation of four Code LLMs and GPT-4o-mini reveals that content moderation in LLM-based code generation is easily bypassed. To enhance moderation, we propose a two-phase approach that first detects harmful content before generating output, improving moderation effectiveness by 483.76\%.
- Abstract(参考訳): LLM(Large Language Models)を利用した生成AIシステムは、通常、有害なコンテンツの拡散を防ぐためにコンテンツモデレーションを使用する。
コンテンツモデレーションの堅牢性を評価するため、コンテンツモデレーションソフトウェアをテストするためにいくつかのメタモルフィックテスト手法が提案されている。
しかし、これらの技術は主に一般ユーザ(テキストや画像生成など)に焦点を当てている。
一方、最近の研究では、ソフトウェアアーティファクトを非倫理的な振る舞いとして命名する際に、有害なキーワードを使うことを検討している。
ソフトウェアアーティファクトの有害なコンテンツへの露出は、開発者のメンタルヘルスに悪影響を及ぼし、コード大言語モデル(Code Large Language Models, Code LLM)のコンテンツモデレーションが不可欠になる。
我々は、自動生成コードに有害なコンテンツを導入するために誤用されるプログラム変換の予備的研究を行い、そのような変換を32個同定する。
そこで本研究では,多様な変換と有害キーワードをプログラムに注入してプロンプトを生成する,カバレッジ誘導型有害性テストフレームワークCHTを提案する。
CHTは、LCMの生成した説明とコードにおける潜在的なリスクを評価するために出力損傷を評価する。
4つのコード LLM と GPT-4o-mini の評価により,LLM ベースのコード生成におけるコンテンツモデレーションが容易に回避できることが判明した。
そこで本研究では,モデレーション効率を483.76\%向上させる2相手法を提案する。
関連論文リスト
- Helping LLMs Improve Code Generation Using Feedback from Testing and Static Analysis [3.892345568697058]
大規模言語モデル(LLM)は人工知能分野における最も有望な発展の1つである。
開発者は定期的にLCMにコードスニペットの生成を依頼し、生産性の向上に加えて、オーナシップ、プライバシ、正確性、セキュリティ問題も導入する。
以前の作業では、商用のLLMによって生成されたコードが、脆弱性やバグ、コードの臭いなど、安全でないことが強調されていた。
論文 参考訳(メタデータ) (2024-12-19T13:34:14Z) - What You See Is Not Always What You Get: An Empirical Study of Code Comprehension by Large Language Models [0.5735035463793009]
ソースコードに隠された文字操作がLLMの動作を誤認し,人間のレビュアーには検出不能なままにしておくという,大きな言語モデル(LLM)の攻撃に対する脆弱性について検討する。
これらの攻撃には、コードリオーダー、見えないコーディング文字、コード削除、コードホモグリフが含まれる。
以上の結果より,LLMは摂動の大きさと性能に異なる負の相関性を示す一方,LLMは認識不能なコードキャラクタ攻撃に対する感受性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-12-11T04:52:41Z) - RMCBench: Benchmarking Large Language Models' Resistance to Malicious Code [30.244754704562162]
LLMが悪意のあるコード生成に抵抗する能力を評価する研究はない。
我々は、悪意のあるコード生成に抵抗する能力を評価するために、11の代表的なLCMについて実証的研究を行った。
以上の結果から,現在のLLMは,テキスト・ツー・コード・シナリオでは平均40.36%,コード・ツー・コード・シナリオでは11.52%の拒否率で,悪意のあるコード生成に抵抗する能力に限界があることが示唆された。
論文 参考訳(メタデータ) (2024-09-23T16:03:26Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - LLM4TDD: Best Practices for Test Driven Development Using Large Language
Models [0.76146285961466]
本稿では,LLM4TDDの概念を考察し,テスト駆動開発手法を用いて大規模言語モデルを用いてコードを反復的に生成する手法を提案する。
本稿では,ChatGPTとLeetCodeのコーディング問題を用いて実験的な評価を行い,LLM4TDDの有効性に対するテスト,プロンプト,問題属性の影響について検討する。
論文 参考訳(メタデータ) (2023-12-07T20:37:54Z) - On the Safety of Open-Sourced Large Language Models: Does Alignment
Really Prevent Them From Being Misused? [49.99955642001019]
オープンソースでアライメントされた大きな言語モデルは、望ましくないコンテンツを生成するために簡単に誤解される可能性があることを示す。
我々のキーとなる考え方は、オープンソースLLMの生成プロセスを直接操作して、望ましくないコンテンツを生成するのを誤解することです。
論文 参考訳(メタデータ) (2023-10-02T19:22:01Z) - Contrastive Decoding Improves Reasoning in Large Language Models [55.16503283583076]
コントラストデコーディングは,様々な推論タスクにおいて,グリージーデコーディングよりもアウト・オブ・ボックスの大幅な改善を実現することを示す。
本稿では,LLaMA-65BがHellaSwag Commonsense reasoning benchmark上でLLaMA 2, GPT-3.5, PaLM 2-Lより優れていることを示す。
論文 参考訳(メタデータ) (2023-09-17T00:29:32Z) - CRITIC: Large Language Models Can Self-Correct with Tool-Interactive
Critiquing [139.77117915309023]
CRITICは、大規模な言語モデルに対して、ツールとのヒューマンインタラクションに似た方法で、自分たちのアウトプットの検証と修正を可能にする。
自由形式の質問応答、数学的プログラム合成、毒性低減を含む包括的評価は、CRITICがLLMの性能を一貫して向上することを証明している。
論文 参考訳(メタデータ) (2023-05-19T15:19:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。